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推 存 序 


10 多 年 前 ， 我 遇见 了 肖 恩 。 当 时 我 在 谷歌 领导 团队 ， 负 责 开 发 为 
谷歌 的 搜索 广告 业务 提供 文 持 的 许多 大 型 机 志学 习 系统 。 肖 恩 是 我 们 
小 组 里 最 顶尖 的 工程 师 之 一 ， 当 时 他 正在 人 研究 机 器 学 习 前 沿 领域 的 一 
系列 具有 挑战 性 的 问题 。 我 们 一 起 工作 以 来 ， 体 现在 统计 机 妖 学 习 技 
术 中 的 各 类 人 工 智能 已 经 从 相对 难以 触及 的 神秘 技术 、 研 究 人 员 和 高 
科技 公司 的 专属 领域 ， 发 展 成 为 日 益 平 易 近 人 的 、 时 有 成 效 的 工具 和 
技术 ， 值 得 每 一 位 软件 开发 人 员 使 用 。 


目前 机 需 学 习 领 域 取 得 的 快速 进展 ， 在 一 定 程度 上 十 由 以 下 因素 
推动 的 : 数据 爆炸 ， 高 性 能 计算 机 体系 结构 的 复兴 ， 云 提供 商 竞相 为 
开发 人 员 和 人 研究 人 员 构 建 可 扩展 的 人 工 稚 能 平台 ， 人 们 将 实时 智能 医 
入 移动 设备 、 汽 车 、 其 他 消费 电子 产品 和 日 益 普 裔 的 连接 到 云 并 的 计 
算 设 备 的 热潮 。 这 种 快速 进步 中 包括 一 些 惊 世 骇 众 的 成 惑 ， 机 融 在 许 
多 狭窄 的 领域 已 经 接近 于 或 超过 了 人 类 的 能 力 ， 例 如 在 图 像 中 标记 物 
体 、 识 别 语音 、 玩 策略 游戏 以 及 翻译 语言 ， 但 我 们 仍 处 于 这 些 技术 发 
展 的 初期 ， 择 在 我 们 面前 的 是 长 达 几 十 年 的 创新 和 发 现 之 旅 。 


对 开发 人 员 和 研究 人 员 而 言 ， 理 解 机 右 学 习 的 工作 原理 是 一 个 明 
智 的 职业 选择 。 目 前 ， 全 球 的 科技 巨头 公司 对 这 些 技术 的 专业 知识 都 
有 很 高 的 需求 。 微 软 、 和 亚马逊、 谷歌、 于 采 、 百 度 等 许多 公司 都 提供 
应 用 程序 接口 、 工 具 包 和 云 计 算 基 础 设施 ， 将 机 顺 学 习 的 开发 工作 区 
给 全 世界 数 以 千 万 计 的 开发 人 员 。 示 来 几 年 ， 随 着 越 来 越 多 的 应 用 程 
序 包 售 关 能 功能 ， 大 多 数 开 发 人 员 部 需要 掌握 一 些 机 妖 学 习 技 术 。 这 
正 古 这 本 书 的 宝 贯 价值 所 在 。 
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够 复制 某 些 方面 的 人 类 智能 ， 等 到 某 个 突破 点 临近 ， 原 本 由 人 类 特有 
的 创造 诗意 词句 的 能 力 或 许 也 会 被 机 器 复制 。 肖 恩 对 这 些 技术 疗 谨 实 
用 的 描述 反映 了 他 在 科研 战 壤 中 的 岁月 ， 不 时 令 人 感到 痛 否 的 反复 试 
验 让 战报 中 的 人 们 了 解 到 ， 机 郝 学 习 并 不 是 魔法 。 如 采 你 知道 如 何 应 
用 它 ， 了 解 它 的 局 限 所 在 ， 它 束 是 强 有 力 的 前 沿 工 具 ; 如 果 你 不 知 
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肖 恩 通过 列举 现实 世界 的 例子 ， 回 避 不 必要 的 术语 ， 使 现代 机 咒 
学 习 的 概念 变 得 通俗 易 刷 。 这 本 书 假设 读者 在 机 絮 学 习 或 计算 机 科学 
领域 的 知识 相对 较 少 ， 因 此 对 更 广泛 的 受众 而 言 非常 友好 。 鉴 于 当前 
围绕 机 万 学 习 和 人 工 智能 的 对 话 大 为 活跃 ， 并 且 这 些 扩 术 可 能 对 我 们 
的 未 来 产生 影响 ， 任 何 想 要 参与 这 场 对 话 的 人 都 应 该 尽 可 能 地 学 习 。 
由 于 市 场 上 缺乏 对 机 器 学 习 通 俗 易 慌 的 专业 介绍 ， 这 本 书 将 成 为 引导 
你 理解 底层 技术 的 理想 方法 ， 它 可 以 帮助 你 更 好 地 判断 哪些 言论 值得 
相信 ， 哪 些 说 得 天 伦 乱 除 的 雇 论 应 该 被 抛弃 。 


微软 CTO (首席 技术 官 ) 
凯 文 .斯 科 特 (Kevin Scott) 
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2010 年 的 一 个 晚上 ， 这 本 书 的 种 子 播种 在 了 计算 机 科学 系 顶 层 的 
人 工 智能 研究 实验 宇 里 。 当 时 ， 我 刚刚 参加 了 一 些 天 于 目 动 驾驶 汽车 
的 研讨 会 ， 对 它们 的 工作 原理 颇 为 好 奇 ， 于 是 我 做 了 一 些 网 络 搜索 。 
我 找到 的 最 好 的 解释 是 卡 内 基 - 梅 隆 大 学 和 斯 坦 福 大 学 的 一 些 研究 人 员 
撰写 的 学 术 论 文 。 我 看 了 儿 分 钟 ， 对 自动 区 驶 汽车 的 工作 原理 有 了 些 
粗浅 的 认识 ， 然 后 便 离 开 了 。 


但 随 着 时 间 的 推移 ， 我 发 现 自己 三 番 五 次 地 重复 这 个 过 程 。 每 当 
看 到 媒体 报道 人 工 智能 或 机 器 学 习 领 域 的 一 个 个 突破 时 ， 我 工会 回 到 
同一 个 问题 : 它们 是 如 何 工 作 的 ? 令 我 感到 奇怪 的 是 ， 我 化 了 无 数 时 
间 在 学 术 界 和 产业 界 人 研究 和 实践 机 右 学 习 ， 但 我 仍然 不 能 坚定 连贯 地 
回答 这 个 问题 。 我 想 ， 或 许 我 对 人 工 智能 和 机 器 学 习 的 了 解 不 如 我 本 
应 了 解 的 那么 多 ， 又 或 许 大 学 课程 没有 教授 我 们 全 面 的 知识 。 大 多 数 
天 于 这 些 主题 的 大 学 课程 只 教授 这 些 突破 背后 的 构件 ， 而 不 教授 如 何 
将 这 些 构件 组 合 在 一 起 去 做 有 趣 的 事情 。 


但 还 有 男 一 个 更 根本 的 原因 ， 即 我 无 法 弄 清 楚 它 们 的 工作 原理 : 
这 些 突破 中 的 大 多 数 确实 涉及 开创 性 的 研究 ， 我 们 根本 不 知道 如 何 构 
建 它 们 ， 直 到 人 研究 人 员 找 到 了 方法 、 撰 写 了 过 程 或 构建 了 原型 。 这 束 
征 为 什么 研究 人 员 一 直 在 同行 评议 期 刊 上 发 表 天 于 这 些 突 破 的 文章 ， 
因为 这 些 文章 新 颖 、 有 影响 力 、 非 显而易见 (而 且 是 经 过 同行 评议 
的 ) 。 但 是 ， 这 些 突破 背后 的 细节 一 经 发 表 就 会 被 随意 散布 在 许多 不 
同 的 来 源 中 ， 因 此 仍然 无 济 于 事 。 


最 终 ， 我 意识 到 应 该 把 目 己 在 研究 中 学 到 的 东西 与 他 人 分 诗 ， 这 
样 他 们 就 无 须 为 了 理解 相同 的 东西 而 跨越 同样 的 障碍 。 换 言 之 ， 我 写 
这 本 书 的 原因 是 ， 这 古 一 本 如 果 我 不 懂 机 器 学 习 我 将 会 想 读 的 书 。 


于 是 我 写 了 这 本 书 ， 布 望 它 能 够 帮助 那些 对 广义 上 的 科学 技术 感 
兴趣 的 人 ， 无 论 老 少 ， 或 者 那些 想 要 更 多 地 了 解 机 右 学 习 和 人 工 智能 
是 否 会 对 他 们 的 公司 有 帮助 的 行业 领导 者 。 这 本 书 下 在 让 广大 读者 都 
能 读 懂 ， 无 论 古 满怀 好 奇 心 的 高 中 生 ， 还 是 退休 的 机 械 工程 师 。 虽 然 
了 解 一 些 计 算 机 科学 会 有 所 帮助 ， 但 阅读 本 书 唯一 的 前 提 条 件 是 好 奇 
心 和 一 点 专注 力 。 我 有 意 把 这 本 书 中 涉及 的 数学 知识 保持 在 最 低 限 
度 ， 以 便 问 普通 读者 更 好 地 传达 核心 思想 。 


机 器 人 、 人 工 智能 和 机 器 学 习 领 域 的 专家 通常 比较 了 解 我 将 要 描 
述 的 一 些 算法 的 实现 细节 ， 但 是 对 他 们 中 的 许多 人 而 言 ， 其 余 的 叙述 
和 对 整个 系统 的 设计 可 能 仍然 是 陌生 的 (除非 这 是 他 们 的 研究 领 
域 ) 。 我 希望 这 本 书 能 为 大 家 带 来 一 些 新 东西 。 


1 目 动机 的 秘密 


长 省 演奏 者 


1737 年 ， 在 工业 革命 的 黎明 时 分 ， 法 国 的 机 械 天 才 雅 克 . 德 . 沃 康 松 
(Jacques de Vaucanson) 完成 了 一 件 杰作 : 一 苯 可 以 像 真 人 一 样 用 长 
笛 演 奏 音 乐 的 塑像 。 只 见 这 尊 真 人 大 小 的 塑像 把 真实 的 长 笠 举 到 噶 
边 ， 接 着 便 用 它 的 机 械 肺 把 空气 送 入 乐器 ， 吹 出 一 个 个 音符 。 通 过 移 
动 嘴唇 ， 调 整 吹 气 的 力度 ， 控 制 手 指 精确 地 在 长 销 孔 上 移动 ， 塑 像 可 
以 吹出 一 系列 音符 ， 组 成 一 首 完整 的 乐曲 ，“ 其 吹奏 过 程 就 像 人 类 乐 手 
的 演奏 一 样 完 美 * 汪 ) 。 沃 康 松 并 不 满足 于 塑像 只 会 用 长 笛 演 奏 一 首 乐 
曲 ， 于 是 赋予 了 塑像 演奏 12 首 不 同 乐曲 的 能 力 9 


对 公众 而 言 ， 像 长 化 演 委 者 这 样 的 装置 他 们 并 非 第 一 次 见 ， 但 是 
这 个 洲 置 很 符 别 。 他 们 把 这 种 机 器 称 为 目 动机 ， 而 且 爱 不 释 手 。 探 弄 
这 类 装置 已 经 成 为 整个 欧洲 富裕 阶层 的 一 种 爱好 。( 忆 有 一 段 时 间 ， 沃 
康 松 同一 小 部 分 观众 收取 相当 于 一 周 薪 水 的 费用 ， 让 他 们 观看 他 那 奇 
怪 的 洲 置 。 它 那 目 然 的 运动 和 复杂 的 行为 对 当时 的 人 们 来 说 完全 属于 
未 知 的 领域 。 最终 ， 光 康 松 在 欧洲 的 其 他 地 区 巡回 展 出 了 长 第 演奏 者 
和 其 他 几 台 目 动 机 。 


Brig EM LIEU? 它 古 黑 魔 法 吗 ? 在 那 10 年 以 前 ， 一 位 
教会 官员 曾 下 令 的 毁 了 族 康 松 的 一 个 工作 坊 ， 因 为 他 认为 这 是 诸 污 神 
灵 ， 所 以 添 康 松 肯定 不 会 再 做 任何 看 起 来 太 像 魔法 的 事情 。 它 征 锋 局 
吗 ? 束 在 长 篆 演 奏 者 诞生 之 前 的 几 年 ， 一 台 看 似 能 演奏 大 键 共 的 目 动 
乐 磺 曾 让 法 国 国 王 路 易 十 五 频 为 着 迷 。 国 王 坚 持 要 了 解 这 人 台 装 置 的 工 


作 原 理 ， 最 终 却 发 现 它 只 是 个 侈 偏 ， 里 面 藏 着 一 个 5 岁 的 小 女孩 。( 因 
沃 康 松 敏锐 地 意识 到 了 这 一 点 ， 热 切 地 同 观 众 展示 长 第 演奏 者 的 内 部 
机 制 。 它 的 动作 流畅 目 然 ， 当 沃 康 松 展示 它 的 内 部 机 制 时 ， 它 显然 只 
征 在 遵循 编码 到 其 机 械 内 脏 中 的 一 系列 指令 。 


沃 康 松 为 了 进一步 证 明 其 发 明 的 合理 性 ， 同 法 国 科学 院 展 示 了 这 
台 目 动机 ， 并 提交 了 一 篇 题 为 《 目 动 长 第 演奏 者 的 机 理 》 的 论文 。 在 
论文 中 ， 沃 康 松 精 确 地 图 释 了 这 台 神 奇 机 器 的 工作 原理 。 塑 像 由 木头 
和 硬 纸板 制 成 ， 被 漆 成 大 理 石 的 样子 ， 包 于 着 皮草 的 指 尖 与 长 备 筷 形 
成 密封 。 目 动机 的 机 械 驱 动 右 由 两 根 旋 转轴 组 成 。 为 了 让 塑像 吹 气 ， 
其 中 一 根 轴 给 三 组 风 箱 打气 ， 产 生 低 、 中 、 高 三 档 不同 压 力 的 气流 。 
这 三 股 气流 合 在 一 起 形成 一 个 人 工 气管 ， 被 送 入 塑像 的 口中 。 装 置 的 
另 一 根 轴 慢 慢 地 转动 一 个 表面 市 有 小 蝶 柱 的 圆 简 。 当 圆 简 旋转 时 ， 这 
些小 蝶 柱 会 压 在 15 根 由 弹 敬 承载 的 杠杆 上 “。 通 过 链条 和 线 统 ， 这 些 杜 
杆 可 以 碟 动 目 动机 的 各 个 部 分 。 一 些 杠杆 控制 着 手指 和 嘴唇 的 运动 。 
时 剩 下 的 杠杆 决定 了 低 、 中 、 高 三 档 压 力 中 的 哪 一 档 气流 应 该 吹 进 长 
第 以 及 装置 的 天 头 应 该 选择 占据 哪个 位 置 来 改变 气流 。 通 过 将 小 蝶 柱 
放置 在 旋转 圆 简 上 的 适当 位 置 ， 敖 康 松 可 以 对 塑像 进行 编码 ， 从 而 让 
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音乐 使。 法 国 科 学 院 接 受 了 他 的 论文 ， 并 做 了 精彩 的 评论 。 


沃 康 松 的 杰作 只 十 那个 世纪 的 发 明 家 儿 十 年 来 开发 的 许多 目 动 机 
之 一 。 目 动机 之 所 以 受 欢 迎 ， 正 是 因为 它 看 起 来 是 完全 目 主 的 ， 而 且 
它 似 乎 复制 了 人 类 的 智能 。 长 第 演 帮 者 和 其 他 类 似 的 目 动机 是 工业 单 
ap PAA TS EIK: 在 几 十 年 的 时 间 里 ， 随 着 各 类 材料 和 各 种 新 发 
明 的 出 现 ， 目 动机 得 以 成 为 可 能 ， 当 时 的 技术 专家 和 业余 爱好 者 在 他 
们 独特 的 探索 中 使 用 目 动机 来 复制 我 们 的 身体 和 思想 。 
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今天 的 目 动机 


时 间 快 进 到 今天 。 在 现实 生活 中 ， 上 自动 区 驶 汽车 日 夜 穿 梭 于 侍 谷 
的 各 个 城市 。 我 们 用 提供 奖励 的 方法 训练 计算 机 程序 玩 雅 达 利 游戏 ， 
最 终 使 程序 的 游戏 水 平 远 远 超过 人 类 玩家 ， 就 像 训 练 一 只 狗 坐 下 或 打 
深 儿 一 样 。 在 《和 危险 边缘 》 (Jeopardy!) 比赛 和 目 中 ， 一 个 计算 机 程 
序 成 功 击败 了 两 位 世界 冠军 。 我 们 开发 出 了 在 古老 的 围棋 中 战胜 最 优 
秀 的 人 类 棋 手 的 计算 机 程序 。 与 此 同时 ， 这 些 突破 背后 的 人 工 智 能 正 
在 以 令 人 叹为观止 的 速度 发 展 ， 甚 至 对 这 个 领域 的 专家 而 言 也 是 如 
此 。 


最 后 这 一 点 起 么 奔 张 也 不 为 过 。 参 加 《危险 边 绿 》 比 赛 的 “ 沃 
森 ” 开 发 团队 表示 ， 在 他 们 着 手 开 发 这 个 系统 之 前 ,创建 出 能 够 击败 世 
界 顶 尖 玩 家 的 程序 还 不 可 能 。 许 多 专家 认为 ， 创 建 出 具备 一 定 棋 力 的 
计算 机 围棋 程序 需要 再 过 10 年 ，AlphaGo (阿尔 法 围棋 ) 证 明了 这 是 
普 误 的 ， 这 个 程序 被 训练 了 几 个 月 ， 随 后 战胜 了 世界 围棋 冠军 李 世 
石 。20 个 月 后 ，AlphaGo 的 创建 者 开发 了 程序 的 另 一 个 版 本 ， 它 仅 用 
三 天 束 目 学 了 人 类 数 千年 积 素 的 围棋 知识 ， 以 100 比 0 的 成 绩 击败 了 上 
一 个 版 本 ， 然 而 它 只 使 用 了 上 一 个 版 本 10% 的 计算 能 力 。 这 在 一 定 程 
度 上 要 归功 于 人 工 神 经 网 络 的 进步 ， 人 工 神经 网 络 是 AlphaGo 的 技术 
基础 ， 也 是 过 去 10 年 的 研究 热点 。 现 在 这 些 人 工 神 经 网 络 不 仅 会 玩 游 
戏 ， 还 能 够 识别 照片 中 的 图 像 、 识 别 口 语 语音 ， 其 水 平 可 以 与 人 类 妮 
美 。 


随 着 这 些 突破 不 断 登 上 新 闻 头 条 ， 它 们 也 目 然 而 然 地 激发 了 我 们 
的 好 奇 心 : 它们 是 如 何 工 作 的 ? 正如 18 世 纪 的 欧洲 人 对 长 笛 演 雪 者 和 
当时 的 其 他 目 动机 感到 疑惑 一 样 ， 当 我 们 谈论 这 些 新 型 目 动 机 时 ， 那 
个 问题 总 是 隐藏 在 表面 之 下 ， 葵 而 未 决 。 
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破 是 真实 的 科学 进步 。 虽 然 它 们 看 起 来 像 魔法 ， 但 是 与 法 国 科 学 院 审 
查 长 笛 演 奏 者 一 样 ， 学 术 界 对 这 些 突破 都 进行 了 仔细 的 审查 。 它 们 同 
长 备 演 奏 者 一 样 ， 也 是 目 动机 的 例子 。 目 动机 吕 B 是 目 动 运行 的 机 器 。 
它 看 上 去 总 是 像 人 或 动物 一 样 目 主 运行 ， 似 乎 可 以 独立 思考 。 但 根据 
定义 ， 目 动机 起 遵循 程序 的 。 这 些 程序 是 预 和 匈 设 定 的 指令 序列 ， 束 像 
活 康 松 为 让 长 第 演奏 者 演奏 首 乐 而 开发 的 程序 一 样 。 


正如 我 们 将 要 看 到 的 ， 事 实证 明 ， 技 术 专 家 在 过 去 的 几 个 世纪 里 
没有 太 大 变化 。 他 们 仍然 在 设计 目 动机 并 给 它们 编程 ， 以 此 复制 人 类 
的 思想 和 里 体 ， 他 们 有 时 仍然 会 造 出 冒牌 目 动机 。 唯 一 的 区 别 是 ， 技 
术 专 家 已 经 把 工具 升级 为 计算 机 和 运行 在 计算 机 上 的 软件 ， 它 们 是 21 
世纪 的 杠杆 、 商 轮 和 发 动机 。 


钟 摆 的 摆动 


18 世 纪 的 目 动机 有 时 会 使 用 当时 尖端 的 精密 技术 一 一 机 械 发 条 ， 
来 执行 它们 的 程序 。 这 些 目 动机 是 由 机 械 能 驱动 的 ， 例 如 一 个 被 举 高 
的 重 物 、 用 钥匙 上 弦 的 线圈 。 目 动机 的 创造 者 通常 是 钟表 匠 ， 其 技术 
则 源 自 钟 表 ， 因 为 钟表 每 到 一 个 小 时 就 尽职 尽责 地 执行 有 趣 的 机 械 序 
列 。 钟 表 从 局 动 前 束 存 储 在 其 内 部 的 势能 中 汲取 能 量 ， 以 此 计时 并 表 
演 它 们 的 “特技 *。 它 们 的 发 条 使 其 以 微小 的 增 量 释放 存储 的 能 量 ， 从 
而 逐步 执行 程序 。 


机 械 钟 利用 钟 摆 的 摆动 来 计时 。 钟 摆 摆动 的 频率 非常 规律 ， 直 到 
20 世 纪 30 年 代 ， 钟 摆 都 是 最 好 的 计时 方法 。( 污 钟 摆 每 摆动 一 次 ， 一 系 
列 的 门 锁 和 次 轮 就 会 记录 一 个 时 刻 ， 释 放 一 点 储存 的 能 量 ， 这 样 时 钟 
就 可 以 做 一 些 有 趣 的 事情 ， 并 施加 给 钟 摆 一 个 小 小 的 推力 ， 使 它 保持 
摆动 。 然 后 这 个 过 程 重复 进行 。 机 械 手 表 的 工作 原理 与 之 类 似 : 一 根 
精细 的 螺旋 状 的 弹 敌 来 回旋 转 一 个 圆 盘 ， 使 圆 盘 绕 着 它 的 中 心 转动 。 
随 着 圆 盘 的 扭转 ， 些 轮 每 次 转动 一 到 两 个 齿 ， 从 而 使 发 条 的 其 余部 分 
可 以 做 一 些 有 趣 的 事情 。 


粗略 地 讲 ， 电 子 计算 机 能 够 运行 程序 也 是 因为 遵循 了 相同 的 机 
制 。 门 锁 和 次 轮 的 原理 同样 适用 于 计算 机 ， 但 计算 机 并 不 征 像 钟 摆 那 
样 安 静 地 摆动 ， 而 是 利 用 了 电子 的 摆动 。 电 子 从 电路 的 一 个 部 分 飞速 
移动 到 另 一 个 部 分 ， 然 后 返回 。 电 子 从 任意 一 个 极端 大 加 目的 地 的 中 
途 ， 在 移动 到 电路 另 一 部 分 的 过 程 中 ， 保 持 动 量 不 变 。 例 如 ， 电 线 线 
al (电磁 铁 ) 或 者 晶体 振荡 器 〈 经 过 实验 室 培养 并 且 被 精确 切割 的 沙 
TI) 的 “弹性 摆动 ”， 其 摆动 速度 能 达到 每 秒 数 百 万 次 ， 为 电路 提供 非 
党 精确 的 谐振 频率 。 这 些 晶体 振荡 右 取 代 了 物理 皖 ， 因 为 它们 对 地 
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它们 的 振荡 速度 非常 快 (每 秒 数 百 万 次 ) 


每 当 这 些 电子 从 电路 的 一 个 部 分 摆动 到 另 一 个 部 分 ， 类 似 于 机 械 
时 钟 或 手表 中 的 物理 门 锁 的 电子 锁 存 做 吏 会 记录 下 这 一 时 刻 ， 计 算 机 
束 在 这 个 时 刻 去 执行 程序 的 下 一 条 指令 。 然 后 指令 计数 右 癌 前 移动 ， 
时 钟 等 待 电子 往 回 摆动 (或 者 等 待 新 电子 取代 它们 的 位 置 ， ， 然 后 重 
复 这 个 过 程 。 


1. Warren A.Marrison,“The Evolution of the Quartz Crystal Clock,"The Bell System 
Technical Journal27,no.3(1948):517—536. 


并 不 难 懂 的 目 动 机 


这 些 电 子 的 振荡 以 及 它们 实现 的 智能 行为 将 成 为 本 书 的 重点 。 在 
本 书 中 ， 我 们 根本 不 会 看 到 这 些 程序 的 低级 指令 ， 即 程序 员 为 创建 程 
序 而 编写 的 变量 和 画 数 名 以 及 程序 生成 的 机 器 代码 。 但 我 们 将 会 看 到 
组 成 自动 机 的 中 间 构 件 ， 它 们 本 质 上 是 更 高 一 级 的 “统计 学 的 次 轮 和 风 
箱 ”。 通 过 了 解 组 成 这 些 自动 机 的 构件 ， 我 希望 你 能 够 更 好 地 了 解 其 他 
现代 自动 机 的 工作 原理 。 例 如 ， 既 然 你 已 经 知道 了 沃 康 松 发 明 的 长 笛 
演奏 者 的 工作 原理 ， 就 可 能 对 他 那 只 著名 的 “吃食 鸭 ” (Digesting 
Duck) 的 部 分 工作 原理 做 出 一 些 有 根据 的 猜测 。 这 人 台 自 动机 看 起 来 能 
拍打 闻 膀 、 嘎 嘎 叫 、 进 食 、 消 化 食物 ， 而 且 还 能 排便 © 


沃 康 松 的 目 动机 无 法 对 世界 做 出 反应 。 他 那个 时 代 的 目 动机 遵循 
的 是 简单 的 、 预 匈 设 定好 的 一 系列 步 又 。 现 代 的 目 动机 能 够 对 不 断 变 
化 的 环境 做 出 反应 ， 因 为 它们 具有 感知 能 力 。 它 们 不 仅 能 对 键 到 上 按 
下 的 按键 做 出 反应 ， 还 能 对 汽车 和 行人 罕 过 拥挤 的 十 子路 口 做 出 反 
应 ， 甚 至 能 对 《危险 边缘 》 题 目 中 的 微妙 线索 做 出 反应 。 今 天 的 目 动 
机 完成 这 些 事情 的 方式 足以 令 沃 康 松 和 他 同时 代 的 人 和 敬 县 不 已 。 


我 将 本 书写 给 对 这 些 三 置 的 工作 原理 感 兴趣 的 人 们 “。 你 无 须 拥有 
计算 机 科学 的 大 学 学 位 束 能 理解 这 本 书 ， 但 十 我 会 假设 你 熟悉 一 些 关 
于 计算 机 的 基本 知识 ， 例 如 计算 机 遵循 人 类 编码 的 明确 指令 ， 计 算 机 
表示 图 像 是 基于 每 个 像素 点 的 红 、 绿 、 蓝 三 色 的 数值 的 ， 等 等 。 即 使 
你 熟悉 人 工 闹 能 或 机 右 人 技术 ， 这 本 书 的 某 些 部 分 对 你 而 言 也 仍然 古 
新 知识 。 虽 然 你 可 能 在 课堂 上 了 解 过 这 些 闭 置 的 构件 ， 但 你 仍然 很 可 
能 没有 学 过 如 何 将 这 些 构件 组 合 在 一 起 ， 实 现 技 术 突 破 ， 因 为 这 些 内 
容 通 常 不 是 在 同一 个 地 方 教授 的 。 最 后 ， 如 末 不 想 从 头 到 尾 读 完 的 
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机 器 学 习 和 人 工 智能 到 底 是 什么 ”人 工 智能 是 一 个 广泛 的 研究 领 
域 ， 致 力 于 赋予 计算 机 做 出 智能 行为 的 能 力 。 但 人 工 稚 能 没有 有 承 诡 计 
算 机 会 像 人 类 那样 做 这 些 事情 ， 正 如 我 们 所 看 到 的 ， 它 们 做 事 的 方式 
通常 和 人 类 大 不 相同 。 人 工 闹 能 只 是 解决 如 何 做 镶 能 的 事情 ， 而 且 和 人 
工 智能 解决 问题 的 范围 通 和 非常 狭窄 ， 比 如 找到 一 条 走出 迷 下 的 路 
径 。 机 器 学 习 有 是 一 个 与 人 工 智能 密切 相关 的 领域 ， 它 使 机 右 通 过 从 数 
据 中 学 习 来 完成 智能 的 工作 。 正 如 我 们 在 本 书 中 将 看 到 的 那样 ， 无 论 
古人 工 闹 能 还 是 机 器 学 习 ， 它 们 本 喘 都 不 是 无 所 不 能 的 。 在 某 些 情况 
下 ， 我 们 需要 设计 一 些 算法 ， 它 们 可 以 在 不 使 用 任何 数据 的 情况 下 ， 
替 拙 地 用 蛋 力 实现 智能 的 解决 方案 ， 而 在 某 些 情况 下 ， 我 们 还 需要 设 
计 一 些 算 法 ， 这 些 算法 可 以 从 数 以 亿 计 的 数据 中 学 习 ， 但 在 把 它们 与 
宁 拙 的 蛋 力 解决 方案 结合 起 来 之 前 ， 它 们 仍然 晤 无 用 处 。 我 们 需要 结 
合 两 种 类 型 的 算法 来 做 有 意思 的 事情 。 


我 已 经 提 及 了 机 器 学 习 和 人 工 智能 领域 的 一 些 有 趣 的 进步 ， 在 这 
本 书 中 ， 我 们 会 继续 探索 。 在 本 书 的 前 半 部 分 ， 我 将 概述 一 些 使 智能 
机 器 能 够 感知 环境 并 与 环境 交互 的 天 键 思想 。 我 们 将 看 到 是 什么 让 目 
动 营 驶 汽车 能 够 在 道路 上 行驶 ， 并 在 拥挤 的 城市 环境 中 罕 行 。 我 们 将 
看 到 神经 网 络 如 何 使 这 些 汽 车 和 其 他 机 器 能 够 感知 周围 的 环境 ， 看 到 
神经 网 络 如 何 识别 图 像 中 的 物体 和 人 类 语音 中 的 文字 。 我 还 将 概述 世 
界 上 最 优秀 的 电影 推荐 引擎 的 工作 原理 ， 这 个 电影 推荐 引擎 背后 的 故 
事 扣 人 心弦 ， 而 且 这 个 系统 的 许多 核心 思想 渗透 到 了 我 们 将 在 本 书 中 
看 到 的 其 他 机 器 中 。 然 后 ， 我 会 告诉 你 们 如 何 用 奖励 让 计算 机 执行 某 
些 行 为 以 及 计算 机 如 何 通 过 人 工 神 经 网 络 感知 世界 。 在 本 书 的 最 后 几 
草 中 ， 我 们 会 更 仔细 地 研究 计算 机 如 何 玩 各 种 游戏 。 有 具体 而 言 ， 我 们 
会 研究 在 围棋 和 国际 象棋 比赛 中 分 别 击败 了 世界 冠军 李 世 石 和 加 里 : 卡 
斯 由 罗 夫 (Gary Kasparov) 的 AlphaGo 和 “深蓝 ”“， 还 有 在 和 党 力 问答 节 


目 《 人 危险 边缘》 中 战胜 了 两 位 冠军 一 一 肯 - 詹 宁 斯 (Ken Jennings) 和 
布 拉 德 . 鲁 特 (Brad Rutter) 的 IBM (国际 商用 机 器 公司 ) BIKAR” © 


在 本 书 中 ， 我 们 将 追 述 这 些 突破 背后 的 故事 。 我 们 会 看 到 许多 相 
天 的 研究 人 员 ， 看 到 使 这 些 进步 成 为 可 能 的 技术 和 方法 之 外 的 因素 。 
例如 ， 一 个 反复 出 现 的 主题 是 ， 互 相 苋 争 的 研究 社区 有 助 于 集中 精力 
并 促进 进步 。 这 殊 是 让 目 动 萄 TT TERA SANER HTE BOUT OE XD) 
原因 。 当 时 ， 数 百 个 研究 团队 参加 了 同一 场 比赛 ， 比 赛 的 目标 是 制造 
可 以 在 沙漠 中 行驶 数 英里 因而 无 须 人 类 驾驶 员 的 自动 驾驶 汽车 。 这 便 
征 我 们 故事 的 开端 ， 在 莫 哈 韦 沙 漠 的 一 个 凉 碍 的 早晨 ， 一 些 车 队 在 为 
比赛 准备 着 它们 的 赛车 。 


1. ”有 消息 称 ， 沃 康 松 的 “吃食 鸭 ” 实 际 上 并 不 能 消化 。 它 体内 有 一 个 秘密 的 空间 ， 用 来 
储存 送 入 的 食物 和 排出 的 人 工 染 色 的 类 便 。 


2. 1 英里 wx1.6093 千 米 。 一 一 编者 注 
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大 多 数值 得 做 的 事情 并 非 轻 而 易 举 ， 而 且 不 会 速 战 速决 。 你 至 受 
你 得 到 的 东西 ， 享 受 事 情 的 结果 ， 这 驶 是 事情 原本 该 有 的 样子 。 正 确 
的 做 法 古 选 择 你 喜欢 的 东西 ， 用 你 所 拥有 的 一 切 去 人 退 求 它 ， 这 束 古 生 
活 的 意义 所 在 。 


“ 老 红 ”威廉 : 惠 特 克 (William*Red"Whittaker) B 
红色 车 队 领 袖 


1. Whittaker,quoted in Radha Chitale,“Red Team Falls to Its Own Offspring,"The 
Tartan[CMU Student Newspaper],October10,2005,accessed 
June15,2017,https://thetartan.org/2005/10/10/scitech/redteam. 


沙漠 中 的 百 万 美元 竞赛 


在 2004 年 的 一 个 深 诡 的 星期 四 早上 ， 第 一 次 机 絮 人 汽车 比赛 在 莫 
哈 韦 沙漠 拉 开 了 战 右 。 随 着 太阳 升 起 ， 一 只 沙漠 马 包 从 洞 六 中 探 出 头 
来 ,希望 能 在 迅速 变 暧 的 公路 上 至 受 一 天 的 阳光 。 今 天 它 发 现 目 己 被 
困 在 了 洞 从 附近， 无论 往 哪个 方 癌 都 寸步 难 行 。 大 约 20 名 生物 学 家 在 
这 个 洞穴 和 类 似 的 洞 信 周围 设置 了 路 障 ， 以 保护 濒临 炙 绝 的 动物 免 受 
即将 驶 过 附近 公路 的 机 器 人 汽车 的 伤害 。( 轧 ) 他 们 恰当 地 预计 了 这 些 汽 
车 无 法 保持 在 公路 上 行驶 ， 更 不 用 说 避 开 它们 中 间 的 马 角 了 。 


人 们 对 赛车 是 否 能 完成 比赛 的 预期 大 相 径 隆 。 赛 事 经 理 翅 不 含糊 


地 声称 ， 胜 利 者 会 在 10 小 时 内 跑 完 142 英 里 的 赛程 。( 忆 但 有 人 怀疑 是 
否 会 有 任何 一 辆 赛车 能 完成 比赛 ， 机 絮 人 社区 的 很 多 人 都 有 此 怀疑 。 
o 


H3 Xaxxnlfsos8B3rJEzk (Chris Urmson) 是 角逐 
这 笔 奖 金 的 人 之 一 ， 他 是 一 个 开发 自动 驾驶 悍马 汽车 的 研究 团队 的 设 
计 带 头 人 。 

克 里 斯 身材 顾 长 ， 顶 着 一 头 凌乱 的 金发 。 在 传奇 机 器 人 专家 “ 老 
红 ” 威 廉 . 惠 特 克 的 指导 下 ， 克 里 斯 正在 卡 内 基 - 梅 隆 大 学 攻读 博士 学 
位 。 他 非常 专注 于 自己 的 研究 ， 在 沙漠 中 花 了 近 两 个 月 的 时 间 对 车 队 
的 悍马 进行 测试 ， 一 度 连 续 工 作 近 40 个 小 时 。( 久 在 一 次 长 时 间 的 测试 
中 ， 他 一 直 守 候 到 午夜 时 分 ， 赚 缩 在 厚 厚 的 毯子 下 ， 看 着 悍马 兜 图 
子 。 人 所 ) 透 过 薄 雾 ， 车 头 灯 光 依 稀 可 见 ， 只 见 悍马 突然 偏离 了 路 线 ， 撞 
上 了 铁丝 网 围栏 。 舍 在 另 一 次 实验 中 ， 悍 马 在 急 转 弯 时 翻 了 车 ， 传 感 


亏 被 甩 掉 了 ， 伦 了 几 个 星期 才 修 复 。 死 里 斯 知道 ， 这 些 事故 发 生 在 比 
赛 前 比 发 生 在 比赛 中 要 好 得 多 。 


一 辆 自动 鸭 驶 摩托 车 毫 无 疑问 地 成 了 这 场 比赛 的 媒体 宠儿 。 它 的 
设计 者 给 它 安装 了 陀螺 仪 ， 这 样 它 就 可 以 通过 反 向 旋转 来 保持 平衡 。 
它 是 全 国 各 地 研究 人 员 和 爱好 者 提交 的 百 余 个 参赛 作品 之 一 。( 注 虽然 
安装 了 陀螺 仪 的 摩托 车 很 智能 ， 但 每 个 人 都 知道 ， 如 果 有 哪 支 车 队 最 
终 能 赢得 比赛 ， 那 么 冠军 很 可 能 是 来 自 卡 内 基 - 梅 隆 大 学 的 克 里 斯 和 威 
廉 的 团队 。 卡 内 基 - 梅 隆 大 学 的 研究 人 员 在 过 去 20 年 一 直 引 领 着 这 一 领 
域 ， 早 在 1991 年 ， 他 们 就 把 一 辆 原始 的 自动 思 驶 汽车 开 上 了 匹兹堡 的 
街道 。 没 有 人 能 否认 该 大 学 的 研究 人 员 在 机 电 方面 的 成 就 ， 而 且 他 们 
通过 军事 拨款 获得 的 惰 慨 资助 想必 也 是 有 百 利 而 无 一 害 。( 当 


比赛 当天 ， 克 里 斯 和 他 的 团队 设计 的 装 满 了 传感器 的 悍马 从 乌 钨 
洞 从 旁边 疾驰 而 过 ， 紧 随 其 后 的 是 另 一 辆 赛车 。 悍 马 已 经 行驶 了 大 约 
25 分 钟 ， 它 的 车 速 并 不 快 ， 在 驶 过 的 7 英里 赛程 中 ， 它 的 平均 时 速 略 高 
于 15 英 里 ,但 它 仍 然 比 当天 其 他 参赛 车 辆 要 好 得 多 。 这 辆 机 器 人 汽车 
的 挡 风 玻璃 被 大 大 的 “CAT”( 卡 特 彼 勒 汽车 ) BUDE, EA TRB 
地 向 前 奔驰 。 但 突然 ， 随 着 一 个 辣 左 的 急 转 弯 ， 它 的 视野 一 片 漆 黑 。 
由 于 看 不 见 路 ， 汽 车 成 了 讶 服 行驶 。 


1. Marsha Walton,“Robots Fail to Complete Grand Challenge,” CNN,May6,2004,accessed 
June16,2017,http://www.cnn.com/2004/TECH/ptech/03/14/darpa.race. 


2. Joseph Hooper,“From DARPA Grand Challenge:2004DARPA’s Debacle in the 
Desert,"Popular Science,June3,2004,accessed 
June16,2017,http://www.popsci.com/scitech/article/2004-06/darpa-grand-challenge- 
2004darpasdebacle-desert;Chris Urmson et al.,“High Speed Navigation of Unrehearsed 
Terrain:Red Team Technology for Grand Challenge,”Technical Report, CMU-RI-04- 
37,Robotics Institute, Carnegie Mellon University,2004. 


3. “Driven to Innovate,"Carnegie Mellon University Homepage Archive,2010,accessed 
October16,2016,http://www.cmu.edu/homepage/computing/2010/fall/driven-to- 


innovate.shtml. 


4. Douglas McGray, “The Great Robot 


June15,2017,https://www.wired.com/2004/03/robot-3. 


5. Douglas McGray,*The Great Robot 


June15,2017,https://www.wired.com/2004/03/robot-3. 


6. Douglas McGray, “The Great Robot 


June15,2017,https://www.wired.com/2004/03/robot-3. 


7; Douglas McGray, “The Great Robot 


June15,2017,https://www.wired.com/2004/03/robot-3. 


8. Douglas McGray, “The Great Robot 


June15,2017,https://www.wired.com/2004/03/robot-3. 


o 


Race,"Wired,March1,2004,accessed 


Race,"Wired,March1,2004,accessed 


Race,"Wired,March1,2004,accessed 


Race,"Wired,March1,2004,accessed 


Race,"Wired,March1,2004,accessed 
Joshua Davis,“Say Hello to 


Stanley,"Wired,January1,2006,accessed June15,2017,https://www.wired.com/2006/01/stanley. 


Te EH 5728 B VE 


悍马 是 如 何 目 动 行驶 7 英里 的 ? PREP, Aon Bee SH 
目 动 车 驶 所 使 用 的 技术 是 机 器 学 习 ， 特 别 是 深度 神经 网 络 。 但 是 克 里 
斯 和 他 的 同事 赛 后 描述 他 们 的 悍马 时 ， 根 本 没有 提 到 机 器 学 习 和 神经 
网 络 。 当 时 是 2004 年 ， 距 离 我 们 研究 出 如 何 训练 神经 网 络 可 靠 地 “看 
到 ”物体 还 有 将 近 10 年 的 时 间 。 那 么 ， 这 些 早期 的 目 动 区 驶 汽车 使 用 了 
什么 技术 呢 ? 在 接 下 来 的 几 间 中， 我 将 回答 这 个 问题 ， 并 解释 一 些 使 
汽车 实现 目 劫 驾驶 的 最 简单 的 算法 。 下 先 ， 我 会 解释 当 人 们 提供 给 一 
辆 汽车 要 访问 的 一 系列 地 点 时 ， 它 如 何在 偏远 的 交通 不 便 的 沙漠 公路 
上 行驶 数 英里 。 在 接 下 来 的 几 章 里 ， 我 会 详细 介绍 让 汽车 能 够 “看 
到 ”周围 的 世界 以 及 在 城市 环境 中 按 加 利 福 尼 亚 州 的 交通 法 规 合理 行驶 
的 算法 。 但 在 深入 探讨 这 些 细节 ， 即 自动 芍 驶 汽车 软件 的 各 部 分 之 
前 ， 让 我 们 先 快速 了 解 一 下 计算 机 控制 汽车 硬件 的 方式 。 


沃 康 松 创 造 长 华 演 委 者 的 时 候 ， 通 过 在 圆 简 上 的 特定 位 置 精心 放 
置 蝶 柱 来 为 长 笛 演 考 者 编程 ， 使 它 演奏 特定 的 乐曲 。 这 些 蝶 柱 会 通过 
按压 不 同 的 杠杆 控制 长 第 演 和 雪 痢 的 嘴唇 、 和 气流、 手指 。 如 采 沃 康 松 想 
要 创作 一 育 新 乐曲 ， 他 只 需要 制作 一 个 新 的 圆 简 ， 把 螺 柱 放置 在 圆 简 
上 的 不 同位 置 。 如 采 他 想 改变 塑像 的 嘴唇 或 手指 移动 的 方式 ， 同 时 保 
留 他 的 12 诈 乐曲 ， 那 么 他 只 需要 调整 物理 痛 置 的 杠杆 、 链 条 和 关节 。 
他 把 目 动机 的 开发 分 为 两 部 分 一 一 圆 简 和 系统 的 其 他 部 分 ， 这 使 得 改 
进 目 动机 和 解释 其 原理 变 得 更 加 容易 。 对 于 开发 目 动 驾驶 汽车 ， 我 们 
也 可 以 如 法 炮制 。 


现在 我 们 把 注意 力 集中 在 汽车 的 速度 上 。 简 而 言 之 ， 汽 车 需要 把 
计算 机 给 它 的 数字 比如 “25”) 转换 成 具体 的 东西 ， 即 汽车 的 行驶 速 
度 。 让 这 比 听 上 去 更 难 的 是 ， 物 理发 动机 不 知道 “25” 是 什么 意思 。 例 


如 ， 即 使 你 知道 给 电动 发 动机 施加 250 伏 的 电压 会 让 汽车 以 每 小 时 25 英 
里 的 速度 行驶 ， 你 也 无 法 通过 简单 地 调 高 或 调 低 电压 来 获得 想 要 的 速 
度 。 如 果 想 让 汽车 以 每 小 时 1 英里 的 速度 行驶 ， 你 不 能 指望 给 发 动机 施 
加 10 伏 的 电压 它 就 能 做 到 。 在 10 伏 电压 下 ， 发 动机 根本 不 会 转动 。 


沃 康 松 那 个 时 代 的 人 通过 使 用 一 种 叫 离心 调 速 器 的 流 置 解决 了 这 
个 问题 ， 这 种 装置 创建 了 一 个 反馈 回路 来 控制 发 动机 的 速度 。 离 心 调 
速 器 是 一 种 带 有 两 个 金属 飞 球 的 “旋转 ” 洲 置 ， 如 图 2.1 所 示 ， 你 可 能 会 
把 它 同 蒸汽 机 和 局 绽 时 期 的 机 械 车 间 联 系 起 来 。 当 发 动机 运转 得 更 快 
时 ， 离 心 调 速 器 束 旋 转 得 更 快 ， 金 属 飞 球 伞 离 心力 向 外 拉 。 通 过 一 系 
PALATE, “PB oe 使 发 动机 减速 。 如 
果 发 动机 运转 太 慢 ， 洲 置 束 会 增加 发 动机 的 燃料 ， 使 其 加 速 。 通 过 调 
太 注 入 发 动机 的 燃料 ， 离 心 调 速 器 可 以 让 发 动机 的 转速 体 持 稳定 。 


当 发 动机 快速 旋转 时 ， 
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深 灰 色 部 分 全 都 随 
发 动机 一 起 旋转 


当 发 动机 转速 过 快 时 , 
控制 燃料 的 阀门 关闭 


村 / 
/ 
f 
/ / 
/ / 
"d H 
E II gll FER MS " 
《 球 也 向 外 移动 LETEHETTTIT 


~ 


给 发 动机 加 燃料 


| 


ee 


A 
2 
S 
D 


ALLAN 


图 2.1 ”离心 调 速 器 ， 电 子 控制 系统 的 前 身 。 当 发 动机 运转 得 更 快 时 ， 带 有 金属 飞 球 的 旋转 轴 
旋转 得 也 更 快 ， 飞 球 被 离心 力 向 外 拉 。 接 下 来 的 一 系列 杠杆 让 发 动机 的 阀门 关闭 。 如 果 发 动 
机 运转 太 慢 ， 立 门 束 会 让 更 多 的 燃料 通过 


这 个 离心 调 速 器 的 缺点 是 ， 它 只 知道 如 何 让 发 动机 傈 持 单 一 速度 
运转 。 现 代目 动 芍 驶 汽车 使 用 类 似 的 反馈 回路 ， 只 是 它们 可 以 按照 计 


算 机 程序 控制 的 任意 目标 速度 运转 。 在 图 2.2 中 ， 你 可 以 看 到 这 样 的 反 
馈 回 路 。 你 的 目标 速度 (例如 每 小 时 25 英 里 ) 是 这 个 反馈 回路 的 输 
入 ， 回 路 使 用 电子 速度 计 而 不 是 旋 转 朔 置 来 测量 车 轮 速 度 与 目标 速度 
的 差异 。 


我 们 希望 从 速度 控制 算法 中 得 到 的 直觉 行为 是 : 当 汽车 开 得 太 慢 
时 ， 和 写 会 提高 发 动机 的 功率 ; 当 汽 车 开 得 太 快 时 ， 它 会 降低 发 动机 的 
功率 。 一 种 常用 的 调节 发 动机 功率 的 方法 叫 作 比例 控制 ， 之 所 以 叫 比 
例 控制 ， 征 因为 我 们 对 功率 的 调节 等 于 目标 速度 和 当前 速度 的 差 值 乘 
以 一 个 固定 的 系数 。 比 例 控 制 并 不 完美 ， 如 果 汽 车 爬 坡 行驶 或 逆风 行 
驶 ， 它 的 行驶 速度 往往 比 我 们 期 望 的 速度 慢 。 因 此 ， 我 们 通常 会 对 控 
制 算法 做 一 些 其 他 调整 ， 例 如 ， 如 采 车 速 一 直 太 慢 ， 发 动机 的 功率 器 
会 稍微 提升 一 些 。 

最 利 见 的 控制 算法 由 三 条 简单 规则 组 成 ， 它 可 以 使 汽车 可 靠 地 达 
到 目标 速度 。 我 们 在 接 下 来 的 几 间 中 介绍 的 许多 目 动 营 驶 汽车 都 使 用 
p 70 专家 称 之 为 PID 比例 -积分 -微分 ) 控制 器 。 


既然 我 们 已 经 对 硬件 的 控制 方法 有 了 大 致 的 了 解 ， 束 无 须 再 过 多 
思考 这 些 复杂 的 细节 。 创 建 便 件 固然 重要 ， 但 我 们 可 以 假设 它 是 一 项 
单独 的 挑战 ， 或 许 是 另 一 本 书 的 主题 。 为 了 从 我 们 的 祝 角 来 控制 速度 
和 转向 ， 我 们 需要 编写 一 个 软件 来 告诉 汽车 应 该 以 什么 速度 行驶 ， 车 
轮 应 该 扭转 多 大 角度 。 把 开车 从 硬件 问 题 转变 为 软件 问题 ， 现 在 我 们 
便 可 以 只 关注 软件 问题 了 。 


期 望 速度 


E 


图 2.2 PID 控 制 器 的 反馈 回路 ， 即 上 文 描述 的 三 规则 控制 器 。 该 控制 器 使 用 速度 计 的 反馈 来 调 
节 发 动机 的 输入 ， 例 如 功率 


1. ”有 时 控制 器 会 随 着 时 间 的 推移 累积 误差 ， 并 将 累积 的 误差 添加 到 发 送 给 发 动机 的 信 
SH, 如果 误差 始终 过 高 或 过 低 ， 这 就 会 起 作用 (这 被 称 为 积分 控制 ) 。 有 时 控制 器 会 
跟踪 误差 的 变化 速度 ， 并 主动 调整 发 送 给 发 动机 的 信号 ， 预 测 未 来 的 变化 (这 被 称 为 微 
分 控制 ) 。 这 种 三 规则 控制 器 通常 被 称 为 PID 控 制 器 ， 或 比例 -积分 -微分 控制 器 。 从 技 
术 上 讲 ， 和 悍马 只 使 用 它 的 PD (比例 -微分 部 分 控制 油门 ， 而 且 形 式 略 有 不 同 。 


规划 路 径 


当 悍马 在 比赛 中 行驶 时 ， 它 并 不 古 朝 某 个 随机 方向 行驶 25 分 钟 ， 
而 古 沿 着 一 条 通 往 特定 目的 地 的 道路 行驶 。 汽 车 可 以 袁 目 的 地 行驶 ， 
征 因 为 车 里 有 一 个 软件 告诉 它 该 去 哪里 。 这 个 规划 组 件 是 目 动 营 驶 汽 
车 最 重要 的 部 分 ， 它 决定 了 系统 其 余部 分 的 优先 级 。 汽 车 所 做 的 其 他 
一 切 事 情 ， 比 如 利用 转 加 系统 保持 在 道路 上 行驶 、 不 撞 上 兰 石 等 ， 都 
征 为 了 进一步 实现 治 着 那 条 路 径 行驶 的 目标 。 


在 比赛 开始 前 仅 两 个 小 时 的 时 候 ， 机 絮 人 汽车 比赛 的 组 织 者 才 辣 
参赛 者 提供 了 一 幅 电 子 地 图 ， 因 为 他 们 不 布 望 参 赛 者 提前 偷 看 这 条 路 
线 。 这 张 带 有 GPS 《全球 定 位 系统 ) 坐标 的 地 图 描绘 了 赛车 从 比赛 起 
点 到 终点 的 路 线 。 因 此 ， 克 里 斯 和 他 的 团队 为 汽车 配备 了 GPS 传感器 
来 检测 位 置 。 从 理论 上 讲 ， 汽 车 只 需要 从 地 图 上 的 一 个 地 点 导航 到 男 
一 个 地 点 ， 用 GPS 传 感 硕 调 整 方 向 ， 使 目 身 保持 沿路 线 行进 即 可 。 


克 里 斯 的 团队 自称 红色 车 队 。 他 们 知道 GPS 是 导航 中 最 重要 的 部 
分 ， 但 他 们 也 知道 这 还 不 够 。 栅 栏 和 岩石 之 类 的 障碍 物 会 挡住 去 路 。 
因此 ， 红 色 车 队 还 提前 绘制 了 一 幅 巨大 的 地 图 ， 称 之 为 “世界 上 最 好 的 
地 图 *”， 以 此 完善 他 们 在 比赛 当天 早上 得 到 的 地 图 。 人 党) 在 比赛 开始 前 
的 几 周 里 ， 他 们 研究 了 54000 平 方 英里 时 沙漠 的 卫星 图 像 ， 以 确定 隧 
得 物 的 位 置 。 


接 下 来 ， 在 比赛 开始 前 仅 两 个 小 时 的 时 候 ， 他 们 获得 了 路 线 的 
GPS 坐 标 ，14 个 人 连忙 在 几 十 台 计 算 机 的 帮助 下 手工 标注 沿途 的 地 
E sS) 


当 这 些 工 作 人 员 手 工 标注 地 图 时 ， 计 算 机 不 断 搜 索 从 比赛 起 点 到 
终点 的 最 佳 路 线 ， 并 将 最 新 信息 发 送 给 工作 人 员 ， 以 便 其 确定 研究 的 
优先 顺序 。 克 里 斯 和 他 的 团队 计划 在 比赛 开始 前 把 这 条 预 完 计算 好 的 
路 径 上 传 到 他 们 的 目 动 当 驶 悍马 上 o 


1. McGray,*The Great Robot Race.” 

2. ”1 平方 英里 x2.59 平 方 公里 。 一 一 编者 注 
3. McGray,"The Great Robot Race." ° 虽然 手工 标注 地 图 非常 耗 时 ， 但 对 自动 鸭 驶 汽车 
而 言 ， 这 其 实 是 一 个 合理 的 解决 方案 ， 因 为 对 所 有 在 道路 上 行驶 的 自动 区 驶 汽车 来 说 ， 
精确 的 地 图 只 需要 创建 一 次 ， 不 需要 频繁 更 新 。 


路 径 搜索 


你 小 时 候 可 能 玩 过 一 个 游戏 ， 在 游戏 中 ， 你 假设 客厅 某 些 地 方 的 
地 面 是 炊 知 。 游 戏 的 目的 是 找到 一 条 罕 过 房间 的 路 ， 尽 可 能 地 避免 踩 
到 和 熔岩。 悍马 从 当前 位 置 到 达 地 图 上 的 下 一 个 目标 点 也 需要 做 同样 的 
事情 ， 只 十 筷 需 要 避 开 的 是 沙漠 中 的 危险 地 区 ， 而 不 是 熔岩 。 


但 我 们 不 能 简单 地 告诉 悍马 “ 找 一 条 好 走 的 路 ”。 还 记得 吗 ， 当 沃 
康 松 创造 长 和 演奏 者 时 ， 他 必须 为 塑像 提供 演 玛 长 第 所 需要 的 每 一 个 
小 动作 的 指令 。 同 样 ， 当 为 计算 机 编程 以 找到 一 条 好 走 的 路 时 ， 我 们 
需要 给 它 一 个 明确 的 步 又 序列 ， 它 必须 遵循 这 个 步骤 序列 才能 目 行 找 
到 正确 路 径 。 这 些 步 又 束 像 一 个 秘方 ， 我 们 必须 对 最 细微 的 细 市 进行 
明确 说 明 。 


如 果 我 们 把 你 寻找 穿 过 熔岩 客厅 正确 路 径 的 过 程 具体 化 ， 它 大 概 
征 这 样 的 : 首先 ， 你 会 不 假 思 索 地 在 脑海 中 预 佑 踩 在 房间 的 不 同 表面 
或 物品 上 所 付出 的 成 本 ， 或 许 像 表 2.1 所 示 的 那样 。 


表 2.1 
地 形 类 型 一 步 的 “成 本 ” 
WE RE ) l 
桌子 0.5 妈妈 会 生气 ， 但 昌 子 毕 况 不 是 熔岩 ) 
长 椅 0 


睡觉 的 猫 狗 10 


然后 ， 通 过 售 算 踩 在 哪里 ， 你 可 以 用 尽 可 能 低 的 成 本 到 达 房 间 的 
男 一 边 ， 以 此 规划 罕 过 房间 的 路 径 。 注 意 ， 我 们 将 寻找 最 优 路 径 的 问 
题 定义 为 最 小 化 某 个 函数 值 (路 人 径 的 成 本 ) 。 这 很 重要 ， 因 为 这 样 我 
们 束 可 以 用 计算 机 擂 长 的 事情 来 描述 这 个 问题 了 。 计 算 机 不 擅长 做 复 
杂 环境 中 的 开放 式 规划 ， 但 它 擅 长 最 小 化 函数 值 。 你 将 在 这 本 书 中 反 
复 看 到 这 一 思想 。 


悍马 进行 的 是 计时 比赛 ， 因 此 红色 车 队 在 地 图 上 给 每 一 个 1 米 xl 
米 的 单元 格 分 配 了 成 本 ， 来 反映 他 们 以 六 点 量 表 (时 为 标准 预计 悍马 安 
全 行驶 1 米 所 需要 花费 的 时 间 成 本 。 走 复杂 地 形 的 成 本 比 走 位 单 地 形 的 
成 本 更 高 ， 因 为 悍马 在 上 面 开 得 更 慢 。 对 于 地 图 上 没有 铺设 路 面 、 缺 
也 GPS 数据 、 地 面 不 平坦 或 陡峭 的 区 域 ， 还 有 距离 GPS 坐标 所 描述 的 
赛 道 中 心太 远 的 单元 格 ， 团 队 设置 了 额外 的 惩 型 。 得 到 了 将 成 本 分 配 
给 每 个 方形 单元 格 的 地 图 之 后 ， 他 们 就 需要 预 估 罕 过 地 图 的 路 径 。 


有 一 种 很 流行 的 路 人 径 搜索 算法 ， 被 称 为 迪 杰 斯 特 拉 算 法 
(Dijkstra’s algorithm) ， 计 算 机 从 起 点 向 外 扩张 搜索 边界 ， 以 此 搜索 
路 径 。( 沁 使 用 该 算法 的 程序 会 执行 一 个 循环 ， 每 次 循环 时 边界 都 向 外 
扩张 一 小 部 分 ， 直 到 计算 机 最 终 到 达 目 的 地 。 随 着 边界 不 断 扩 张 ， 程 
序 把 任意 一 点 围 进 边 界 内 所 要 付出 的 成 本 会 慢 慢 增加 。 所 以 无 论 何 
时 ， 当 它 扩张 边界 想 去 围 另 一 个 点 的 时 候 ， 这 个 新 点 束 是 它 要 付出 成 
本 的 最 大 值 所 能 到 达 的 点 。 像 这 样 扩张 边界 的 好 处 是 ， 计 算 机 可 以 沿 
着 最 有 前 途 的 路 线 搜索 ， 比 如 先 搜索 成 本 很 低 的 平坦 道路 ， 然 后 才 会 
不 得 已 费力 地 搜索 更 难 走 的 路 线 ， 比 如 崎 上 的 越野 地 带 。 


当 边 界 到 达 目 标点 ， 即 目 动 区 驶 汽车 比赛 中 的 目的 地 的 时 候 ， 计 
算 机 束 会 知道 起 点 和 终点 之 间 存 在 一 条 路 径 ， 也 知道 走 过 这 条 路 径 的 
成 本 。 只 要 计算 机 记录 下 在 地 图 上 扩张 边界 的 过 程 ， 就 可 以 快速 回 
漳 ， 找 到 通 往 终点 的 最 短路 径 。 在 图 2.3 中 ， 你 可 以 看 到 最 短路 径 的 样 
子 以 及 搜索 边界 的 过 程 。 


计算 机 科学 家 和 机 器 人 专家 多 年 来 一 直 在 研究 这 种 算法 ， 他 们 知 
道 如 何在 儿 分 之 一 秒 内 找到 大 型 地 图 中 成 本 最 低 的 路 径 。 当 路 径 无 须 
是 最 佳 路 径 ， 仅 仅 是 足够 好 的 路 径 即 可 时 ， 他 们 甚至 可 以 用 更 短 的 时 
间 佑 算出 来 。 红 色 车 队 的 计算 机 用 这 种 算法 规划 出 路 线 后 ， 悍 马 便 准 
备 开 始 比赛 了 。 


1l. ”六 点 量 表 即 把 地 形 的 情况 分 为 1~6 六 个 等 级 的 测验 量 表 。 一 一 译 者 注 
2. ”许多 自动 区 驶 汽车 中 使 用 的 算法 被 称 为 A* ( 即 A-Star) 搜索 ， 它 使 用 近似 来 缩短 搜 
索 一 条 好 走 的 路 径 所 需 的 时 间 。 


导航 


为 了 在 地 图 上 找到 悍马 的 位 置 ， 克 里 斯 的 团队 在 悍 蕊 上 安 洲 了 
GPS 传 感 奏 。GPS 传 感 硕 使 用 来 目 美 国 国防 部 送 入 地 球 轨 道 的 数 十 颗 
经 过 精心 校准 的 卫星 的 信号 。 在 任意 时 刻 ，GPS 传 感 器 都 可 以 连接 到 
其 中 几 颖 卫星 ,但 并 不 总 是 相同 的 几 颗 。GPS 传 感 医 利用 4 蜂 可 连接 的 
卫星 ， 根 据 三 角 测 量 法 计算 出 当前 时 间 和 它 所 处 的 位 置 ， 可 以 精确 到 
几米 。 


然而 ， 单 任 GPS 并 不 能 满足 目 动 要 驶 汽车 的 需求 。 首 先 ，GPS 测 
量 并 不 总 是 准确 的 。 优 秀 的 GPS 系统 可 以 精确 到 厘米 ， 但 在 最 坏 的 情 
况 下 ， 有 些 GPS 系 统 可 能 会 有 数 百 米 的 误差 。GPS 测 量 也 存在 硬件 上 
的 缺陷， 例如 通过 隧道 时 硬件 停顿 ， 甚 至 卫星 信号 通过 地 球 电离 层 时 
受到 干扰 。GPS 也 无 法 为 机 器 人 汽车 指明 方向 。 例 如 ， 如 果 悍 马 的 车 
轮 在 布 满 沙 土 的 道路 上 打滑 ， 人 悍马 可 能 会 失去 方向 。 因 此 ， 对 悍马 而 
言 ， 在 没有 GPS 的 情况 下 导航 是 至 关 重 要 的 。 


(a) 示例 地 图 。 颜 色 越 深 ， 表 示 行 驶 成 本 越 高 。 


(b) 


(c) 穿 过 这 幅 地 图 的 最 佳 路 径 。 
图 2.3 起 点 至 终点 的 路 径 选 择 。 (a) 拥有 4 种 不 同 地 形 的 地 图 
通过 的 地 形 。 起 点 和 终点 分 别 标记 


。 网 格 中 的 每 个 单元 格 代表 1 平 


EN 


方 米 ，4 种 颜色 代表 4 种 地 形 。 深 色 代表 成 本 更 高 且 不 容易 通 
E 左 侧 和 项 部。 从 浅 灰色 到 深 灰 色 ， 通 过 每 个 单元 格 的 时 间 分 别 是 1 秒 、3 秒 、9 秒 和 18 秒 。 
(b) 一 些 搜索 算法 从 起 点 开始 扩张 搜索 边界 。 每 条 边界 都 用 黑色 轮廓 线 标 出 ， 表 示 汽 车 在 
175 秒 、350 秒 、525 秒 和 700 秒 内 能 行驶 多 远 。 (c) 算法 搜索 完成 后 ， 计 算 机 就 会 描绘 出 通过 
成 本 网 格 的 最 佳 路 径 。 在 这 种 情况 下 ， 路 径 倾向 于 保持 在 浅 色 地 形 上 ， 因 为 在 浅 色 地 形 上 汽 
车 可 以 更 快 地 行驶 


Bl 


因此 ， 红 色 车 队 在 悍马 上 安装 了 加 速度 计 ， 以 测量 它 的 三 维 加 速 
度 ， 悍 马 通 过 积 素 这 些 加 速度 来 估计 汽车 的 速度 和 人 位置。 他们 还 安 猴 
了 测量 旋转 角度 的 陀 蝶 仪 ， 这 样 束 可 以 跟踪 它 的 方向 了 。 


悍马 利用 1960 年 发 现 的 一 种 数学 模型 一 卡尔 受 滤波 右 ， 将 这 些 
加 速度 计 和 GPS 传感器 的 测量 结果 结合 起 来 。 卡 尔 曼 滤波 器 可 以 实时 
跟 踩 运动 的 物体 ， 例 如 跟踪 洲 艇 在 海洋 中 的 位 置 或 机 器 人 悍马 在 赛 道 
上 的 位 置 ， 其 方法 是 提取 物体 的 一 组 测量 数据 。 卡 尔 曼 滤波 器 背后 的 
核心 思想 是 ， 我 们 永远 无 法 真正 知道 物体 的 真实 位 置 和 速度 ， 只 能 提 
摄 其 不 完美 的 快照 ， 这 些 快照 谍 像 声呐 上 的 光 扣 一样。 有 些 光 操 可 能 
征 错 误 的 ， 我 们 不 想 让 它 影响 估算 ， 例 如 ， 光 总 可 能 是 一 头 稣 或 一 片 
海 党 的 反射 ， 但 卡尔 受 滤波 郁 可 以 消除 这 些 异 党 值 。 事 实 上 ， 卡 尔 曼 
滤波 郁 并 不 期 望 它 的 所 有 测量 值 都 是 正确 的 ， 它 只 十 布 望 平 均值 正 
确 。 如 果 有 足够 多 的 观测 数据 ， 它 就 可 以 非常 好 地 近似 估算 出 物体 的 
真实 位 置 和 速度 。 卡 尔 曼 滤 波 句 提取 加 速度 计 、 陀 螺 仪 和 GPS 的 测量 
结果 ， 再 结合 车 轮 的 测量 结果 ， 可 以 让 目 动 芍 驶 汽车 估算 出 目 己 的 位 
置 ， 即 使 在 GPS 中 断 两 分 钟 的 情况 下 ， 其 估算 结果 也 只 有 厘米 级 别 的 
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虽然 有 这 些 精确 的 测量 结果 ， 但 悍马 仍然 可 能 擅 到 围栏 、 岩 石 以 
及 沿途 其 他 在 红色 车 队 的 地 图 上 看 不 到 的 东西 ， 所 以 车 队 还 给 悍马 添 
了 一 只 巨大 的 “眼睛 *。 他 们 计划 用 这 只 巨 服 扫描 悍马 前 进 路 径 的 路 
面 ， 找 出 未 被 编 入 预先 规划 路 径 的 障碍 物 。 如 果 在 规划 路 径 上 有 障碍 
物 或 路 面 不 平坦 ， 那 么 他 们 编写 的 程序 就 会 让 悍马 向 左 或 向 右 转向 ， 
以 避免 撞 上 障碍 物 或 跌倒 e 


悍马 的 “眼睛 * 由 激光 和 光 传 感 器 组 成 ， 被 称 为 激光 雷达 。 激 光 雷 
达 束 像 声 呐 或 雷达 ， 只 不 过 它 不 是 反射 声音 或 无 线 电波 ， 而 是 从 物体 
ERGs 〈 后 文 提 到 这 项 技术 时 ， 我 会 使 用 术语 “激光 扫描 仪 ”。) 
巨 腿 还 有 一 对 安 厂 在 万 回 架 上 的 摄像 头 ， 机 融 人 汽车 可 以 控制 它们 指 


向 不 同 的 方向 。( 电 (万 向 架 是 一 种 固定 装置 ， 可 以 让 物体 沿 着 不 同 的 
轴 旋 转 ， 就 像 地球 仪 一 样 。) 


但 是 ,悍马 的 巨 眼 同样 非常 简陋 。 悍 马 的 程序 并 没有 根据 它 的 “ 服 
睛 ?所 看 到 的 东西 实质 性 地 调整 路 线 。 它 只 是 按照 预先 规划 好 的 路 线 
走 ， 按 照 简 单 的 规则 左右 转 癌 以 避 开 难 走 的 路 面 。 


这 只 人 简陋 的 “眼睛 ”最 终 也 给 悍马 邦 来 了 麻烦 ， 比 赛 中 ， 悍 马 冲 上 
路 肩 ， 扩 上 了 一 块 奉 石 。 
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2. Urmson et al.,“High Speed Navigation of Unrehearsed Terrain.” 


3. 悍马 还 有 几 个 低 功率 激光 扫描 仪 被 安装 在 它 的 侧面 和 前 部 ， 用 于 物体 探测 。 


无 人 车 挑战 赛 的 获胜 者 


悍马 在 沙漠 中 刚刚 驶 过 7 英里 里 程 标 后， 一 头 撞 上 了 一 块 岩 石 。 那 
里 有 一 个 同 左 的 急 转 弯 ， 但 悍马 转弯 太 急 了 ， 左 侧 车 轮 越过 了 路 肩 。 
它 辐 前 滑行 ， 底 盘 陷 入 沙土 中 ， 最 终 撞 上 了 兰 石 。 比 赛 计 时 圳 上 的 时 
间 一 分 钟 又 一 分 钟 地 流通 ， 悍 马 还 在 沙土 中 旋转 着 车 轮 。 几 名 负责 跟 
踩 悍马 进程 的 赛事 官员 注视 着 它 在 晨光 中 振 扎 。 


悍马 的 车 轮 旋 转 了 将 近 7 分 钟 ， 最 终 着 火 了 。 附 近 的 赛事 官 立刻 按 
下 遥控 的 电子 灭火 开关 ， 停 止 了 机 器 人 ， 然 后 跳出 来 扑灭 了 火焰 。 悍 
马 的 车 轮转 得 太 快 了 ， 当 按 下 电子 灭火 开关 时 ， 它 的 两 个 半 轴 全 都 断 
AUT o COSE RUBER EA RE SOR T HEX 。 


DARPA (美国 国防 部 高 级 研究 计划 局 ) 组 织 了 这 次 机 器 人 汽车 比 
赛 ， 人 们 称 之 为 "DARPA 无 人 车 挑战 赛 ” (DARPA Grand Challenge) ° 
在 106 辆 报名 参赛 的 车 辆 中 ， 有 15 辆 在 比赛 当天 参加 了 比赛 ， 其 中 包括 
克 里 斯 和 他 的 团队 设计 的 机 器 人 悍马 。 


最 终 ， 这 些 自动 驾驶 汽车 没有 一 辆 赢得 百 万 美元 奖金 。 在 旁观 者 
看 来 ， 这 些 赛车 看 起 来 简直 就 像 一 群 可 怜 虫 ， 只 见 一 辆 参赛 的 大 卡车 
慢 慢 地 从 灌木 从 中 退出 来 ， 另 一 辆 车 因为 害怕 影子 而 驶 离 了 道路 ， 包 
那 位 自动 鸭 驶 摩托 车 的 发 明 者 ， 在 赛 前 的 兴奋 和 欢呼 中 ， 忘 记 了 把 摩 
托 车 切换 到 自动 驾驶 模式 ， 它 在 起 跑 线 就 一 头 栽 倒 了 。 


悍马 行 力 了 7.4 英 里 ， 最 终 在 路 边 抛 了 销 。 虽 然 它 古 比赛 中 表现 最 
好 的 车 辆 ， 但 它 仅仅 走 完了 5% 的 路 程 。 


红色 车 队 研究 了 他 们 的 比赛 记录 ， 发 表 了 一 份 长 篇 报告 ， 概 述 了 
这 辆 悍马 的 优 缺 点 。 他 们 在 报告 中 列举 了 25 分 钟 行驶 过 程 中 的 一 些 问 
题 。 报 告 读 起 来 就 像 电影 《 福 禄 双 霸 天 》 (The BluesBrothers) “AY 
剧本 。 


e 撞 上 1 号 围栏 桩 ; 


。 撞 上 2 号 围栏 桩 : 

。 短 暂 的 停顿 

。 撞 上 3 号 围栏 桩 ; 

eH LAA; 

ost RK AEE ith e © 


FELL EPA, CEE ta we GEETA”, TETRES 
公司 可 能 会 更 恰当 地 称 之 为 事故 。 


DARPA 曾 向 参赛 者 宣布 ， 比 赛 可 以 用 普通 四 驱 皮 卡 完成 ，( 洁 但 红 
色 车 队 选 择 了 一 辆 悍马 ， 因 为 他 们 不 希望 硬件 成 为 瓶颈 。 这 在 某 些 情 
况 下 确实 有 所 帮助 ， 例 如 ，3 号 围栏 桩 是 加 固 过 的 ， 坚 国 的 悍马 推 了 它 
近 两 分 钟 才 终于 把 它 推倒 ， 继 续 前 进 。 克 里 斯 甚至 称 他 们 的 悍马 为 “ 汽 
车 破 城 杷 ， 时 速 22 英 里 的 猛兽 ”。 里 但 是 一 辆 坚硬 的 悍马 并 不 足以 赢 
得 胜利 。 


问题 是 悍马 几乎 看 不 到 它 的 去 向 。 它 的 巨 上 腿 太 原始 ， 视 力 太 差 。 
除了 长 距离 导航 功能 之 外 ， 悍 马 的 大 部 分 智能 行为 都 涉及 使 用 简单 的 
规则 对 传 感 占 做 出 反应 。 红 色 车 队 意 识 到 了 这 些 局 限 ， 对 悍马 进行 了 
编程 ， 让 悍马 在 数据 可 能 不 可 靠 时 名 略 摄像 头 和 激光 扫描 仪 的 数据 ， 


PRSTRERGPS SAR, tere TUE RRA ERAT AR o Mie TE SB Bla a 
车 之 前 发 生 的 事情 。 它 必须 改进 巨 眼 和 任何 文 持 巨 服 的 软件 。 
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1. Urmson et al., "High Speed Navigation of Unrehearsed Terrain.’ 
2. Davis,“Say Hello to Stanley.” 

3 Hooper,"From DARPA Grand Challenge." 

4. CHAOMERA) , KESEREK, BR ERE Re ALE ° 译 者 注 


5. Chris Urmson et al.,“Red Team Technology Overview,"Technical Report,The Robotics 


Institute, Carnegie Mellon University,2004. 
6. Thrun et el., Stanley." 


7. Hooper,"From DARPA Grand Challenge"; McGray,"The Great Robot Race.” 


一 场 失 败 的 比赛 


对 劳 观 者 而 言 ，DARPA 无 人 和 车 挑战 赛 可 能 看 起 来 丈 是 一 次 失败 。 
美国 有 线 电 视 新 闻 网 以 “机 右 人 折 莽 挑 战 赛 ” 为 题 总 结 了 这 次 比赛 。 
《大 众 科 学 》 (Popular Science) 称 之 为 "DARPA 的 沙漠 溃败 ”。 (3I 
好 的 一 面 讲 ， 正 如 一 位 观众 所 言 ， 这 是 拖车 司机 的 好 日 子 ”。 人 四 


但 许多 参赛 者 对 结果 非常 满意 。 当 晚 ， 参 赛 者 和 组 织 者 在 位 于 终 
点 的 布 法 罗 比 尔 赌 场 聚会 ， 在 那里 ， 他 们 被 一 群 热 圳 于 制造 机 器 人 汽 
车 的 极 客 包围 了 。 很 快 ， 所 有 人 都 能 详细 了 解 机 器 人 悍马 如 何在 崎 上 赋 
的 沙漠 里 跑 7.4 英 里 了 ! 而 且 ， 在 连续 数 月 的 连夜 奋战 和 周末 加 班 之 
后 ， 他 们 终于 可 以 补 觉 了 。( 针 


DARPA 的 官员 也 很 兴奋 ， 互 相 视 货 这 场 比 赛 的 成 功 。 在 之 前 的 8 
年 中 ， 目 从 自动 敬 驶 汽车 领域 的 引领 者 之 一 恩 斯 特 : 巡 元 曼 斯 (Ernst 
Dickmanns) 宣称 “这 个 领域 需要 等 到 计算 机 变 得 更 强大 才 有 希望 *»， 该 
领域 加 一 直 在 寒冬 中 重 伏 。 计 算 机 的 速度 提高 了 25 倍 ，DARPA 无 人 车 
挑战 赛 迅 速 重 燃 了 这 个 领域 ,让 人 研究 人 员 得 以 再 度 取 得 进展 。 


DARPA 也 更 接近 于 实现 国会 的 目标 一 一 到 2015 年 使 V3 的 军用 车 
SOA oe 〈 据 我 所 知 ， 这 个 目标 并 没有 实现 ) 。 与 参赛 者 一 
样 ，DARPA 也 拥有 来 目 世 界 各 地 专家 的 文献 ， 内 容 涉 及 如 何 制造 可 以 
在 沙漠 中 目 动 行驶 的 汽车 。“ 对 我 们 而 言 ， 是 否 有 车 辆 跑 完 整个 赛程 并 
不 重要 ，” 时 任 DARPA 主 任 的 安东尼 . 特 琴 (Anthony Tether) 解释 
道 ，“ 我 们 希望 激 起 人 们 对 这 个 领域 的 科学 兴趣 和 工程 兴趣 o n9) 


从 这 个 角度 看 ， 这 次 比赛 大 获 成 功 。 它 吸引 了 100 多 名 申请 者 ， 并 
在 短 短 几 个 月 内 就 看 到 了 450 多 家 电视 媒体 和 58 家 报纸 的 报道 。 人 四 


GEE) (Wired) 和 《大 众 科学 》 等 28 家 顶级 杂志 用 大 量 篇幅 报 道 了 
一 赛事 。 人 四 尽管 他 们 当时 并 不 知道 ， 但 这 至 少 比 重工 业 投 资 自动 区 
驶 汽车 技术 提前 了 15 年 。 


DARPA 的 官员 表示 ， 为 了 继续 推进 发 展 ， 他 们 将 在 一 年 多 后 举行 
下 届 比 赛 。 他 们 将 奖金 提高 了 一 倍 ， 达 到 200 万 美元 。 加 里 .卡尔 
(Gary Carr) 是 第 一 次 挑战 赛 前 连续 几 周 彻夜 工作 的 选手 之 一 ， 也 是 
那些 迫不及待 见证 成 功 的 选手 之 一 。 他 说 : “我 们 会 来 的 。 我 们 的 赛车 
会 有 所 不 同 ， 但 我 们 会 来 的 。* 轩 对 下 一 次 比赛 摩拳擦掌 的 人 并 不 止 
他 一 位 。 克 里 斯 和 红色 车 队 的 其 他 队员 现在 又 有 机 会 了 


1. Hooper, “From DARPA Grand Challenge." 


2. Joab Jackson,“DARPA’s Desert Duel,"GCN,March13,2004,accessed 
June15.2017,https://gcn.com/articles/2004/03/13/darpas-desert-duel.aspx. 


3. Walton, “Robots Fail to Complete Grand Challenge.” 
4. Dickmanns,quoted in Davis,“Say Hello to Stanley.” 
5. Jackson,“DARPA’s Desert Duel." 


6. DARPA,“Grand Challenge2004Final Report,"Technical Report,Defense Advanced 
Research Projects Agency,2004. 


7. DARPA,“Grand Challenge2004Final Report.” 


8. Walton, “Robots Fail to Complete Grand Challenge.” 
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将 自主 导航 视 为 软件 问题 。 
斯 坦 福 车 队 设 计 理 念 ，2005 年 


第 二 次 无 人 车 挑战 赛 


第 二 次 无 人 车 挑战 赛 在 一 年 半 之 后 重 燃 战火 ， 同 样 是 在 莫 哈 韦 沙 
漠 。 每 隔 5 分 钟 就 有 一 辆 机 器 人 汽车 从 起 跑 线 出 发 ， 这 样 车 辆 就 不 会 在 
行驶 过 程 中 互相 干扰 e © 


红色 车 队 的 策略 再 次 聚焦 于 地 图 和 导航 。 这 次 ， 在 一 个 月 的 时 间 
里 ， 和 车队 派 三 名 车 手 探 察 了 2000 英 里 的 沙 汉 路程， 寻找 比赛 可 能 选取 
的 路 线 。 和 先前 一 样 ， 队 员 在 比赛 开始 之 前 对 路 线 进行 了 两 个 小 时 的 
预 处 理 ， 以 帮助 计算 机 规划 出 一 条 路 径 ， 然 后 将 路 径 上 传 给 悍马 。( 同 
他 们 还 给 悍马 编码 了 一 条 规则 ， 以 防 它 被 困 在 岩石 后 面 动 弹 不 得 。 如 
果 它 被 困 住 了 ， 即 如 果 它 的 车 轮 正在 转动 ， 但 GPS 传 感 右 显示 它 没 有 
ae 清除 它 对 障碍 物 的 判断 ， 然 后 再 试 一 
次 。 


对 这 些 赛车 而 言 ， 比 赛 中 最 具 挑 战 性 的 部 分 是 啤酒 瓶 关口 ， 这 是 
一 条 1.5 英 里 长 的 土路 ， 一 边 是 陡峭 的 岩石 ， 另 一 边 是 100 英 尺 久 高 的 
悬崖 。( 岂 参赛 者 围 在 关口 处 传 来 的 现场 直播 视频 旁边 ， 观 察 着 他 们 的 
机 器 人 汽车 能 和 否 成 功 通过 。 人 后) 红色 车 队 的 悍马 虽然 一 路 石 奢 绊 绊 ， 但 
基本 顺利 通过 。 事 实 上 ， 人 悍马 成 功 跑 完 了 全 部 132 英 里 的 赛程 ， 这 几乎 
是 第 一 场 比赛 中 行进 路 程 的 20 倍 。 伟 ) 但 它 并 没有 获胜 。 比 赛 的 获胜 者 
是 斯 坦 利 ， 它 是 斯 坦 福 车 队 制 造 的 赛车 ， 这 一 年 首次 参赛 。 斯 坦 利 开 
得 太 快 了 ， 为 了 等 它 前 面 的 赛车 ， 它 不 得 不 两 次 停车 。( 电 最 终 比 赛 组 
织 者 停 住 了 斯 坦 利 前 面 的 赛车 ， 让 斯 坦 利通 过 。 最 后 ， 斯 坦 利 完 赛 比 
红色 车 队 的 悍马 快 了 10 多 分 钟 。( 时 


rte fi = De A AL eS E 0 et A EE ERY 
(Sebastian Thrun) 领导 ， 他 是 有 史 以 来 担任 这 一 职位 的 最 年 轻 的 人 。 
塞 巴 斯 带 安 也 来 自 卡 内 基 - 梅 隆 大 学 ， 仪 仅 几 年 前 他 还 是 机 器 人 实验 室 
的 初级 教员 。 虽 然 他 先前 从 未 制造 过 自动 萄 驶 汽车 ， 但 他 从 第 一 次 无 
人 车 挑战 赛 受 到 了 局 发。 在 得 知 那 场 挑 战 赛 是 一 场 “ 沙 漠 溃 败 ” 之 后 ， 
他 问 自己 :“ 我 们 能 做 得 更 好 吗 ? >* 沁 他 从 大 众 汽车 公司 得 到 了 两 辆 大 


众 途 锐 汽车 的 赞助 和 大 众 电子 研究 实验 室 的 支持 ， 由 此 ， 他 得 以 将 灵 
REALITE) o 


正如 塞 巴 斯 蒂 安 在 比 赛 的 个 人 笔记 中 所 写 的 那样 ， 他 首先 通过 组 
织 研 讨 班 召集 人 力 ， 建 造 斯 坦 利 的 原型 。( 归 这 不 是 普通 的 课堂 ， 没 有 
教科 书 ， 没 有 教学 大 纲 ， 也 没有 讲座 。( 电 这 门 课 的 20 名 学 生 只 阅读 了 
两 篇 论文 ， 这 样 他 们 就 不 会 偏向 于 任何 特定 的 方法 。( 时 在 短 短 8 周 
内 ， 他 们 就 造 出 了 一 辆 原型 车 ， 它 可 以 沿 着 沙漠 路 线 行驶 得 比 悍马 更 
x (虽然 速度 慢 一 些 ) 6 


是 什么 让 斯 坦 利 在 比赛 中 大 获 成 功 ? 前 一 年 的 参赛 车 辆 对 障碍 物 
仿 测 等 方面 的 依赖 太 少 。( 晤 斯 坦 福 车 队 认识 到 ， 过 于 强调 地 图 和 导航 
而 忽视 对 环境 的 感知 是 错误 的 。 虽 然 他 们 的 对 手 红色 车 队 在 第 二 次 无 
人 车 挑战 赛 前 已 经 探 察 了 2000 英 里 的 沙漠 道路 ， 但 这 一 区 域 仅 占 实 际 
KRR% 


斯 坦 福 车 队 知道 ， 即 使 大 型 悍马 也 可 能 被 岩石 困 住 ， 而 且 DARPA 
提醒 他 们 ， 小 型 皮卡 可 以 穿越 这 条 路 线 ， 这 就 形成 了 一 种 不 同 的 设计 
理念 ， 将 自主 导航 视 为 软件 问题 。( 电 在 让 学 生 设计 原型 机 器 人 的 研讨 
班 结束 后 ， 塞 巴 斯 蒂 安 和 一 个 小 团队 ( 仅 由 少数 学 生 和 其 他 一 些 研究 
ARAR) 舍弃 了 他 们 的 大 部 分 代码 ， 开 始 更 仔细 地 重 写 斯 坦 利 的 软 
件 ， 并 为 汽车 中 包含 的 软件 设置 了 一 个 很 高 的 标准 。( 包 但 他 们 并 不 只 
是 依赖 软件 ， 更 具体 地 讲 ， 他 们 计划 使 用 机 器 学 习 来 解决 声 驶 问题 。 
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小 组 ， 至 少 目 20 世 纪 80 年 代 开 始 ， 人 们 区 ® 已 经 在 目 动 驾驶 汽车 的 背景 
下 研究 机 器 学 习 了 。( 固 但是， 斯坦福 车 队 属于 第 一 批 完全 押 注 于 机 器 
学 习 的 现代 目 动 当 驶 汽车 团队 。 在 目 动 芍 驶 汽车 成 为 主流 媒体 热门 词 
汇 之 前 的 近 10 年 里 ， 他 们 束 欣 然 接 受 了 机 大 学 习 在 目 动 要 驶 汽车 领域 
的 角色 ， 塞 巴 斯 送 安 的 车 队 在 赛 后 这 样 描述 其 赛车 。 


无 论 在 比赛 前 还 是 在 比赛 中 ， 机 器 学 习 的 广泛 应 用 都 使 斯 坦 利 变 
得 强大 和 精确 。 我 们 相信 ， 这 些 技术 加 上 广泛 的 测试 ， 对 斯 坦 利 在 这 
场 比 赛 中 的 成 功 起 到 了 很 大 的 作用 。 人 四) 


当 塞 巴 斯 带 安 和 他 的 团队 第 一 次 着 手打 造 斯 坦 利 时 ， 他 们 面临 着 
一 项 艰巨 的 任务 。 他 们 需要 为 其 自动 机 设计 一 种 方式 来 感知 世界 并 做 
出 反应 。 斯 坦 利 在 寻找 者 路径 时 不 能 每 次 都 等 几 秒 ， 随 着 环境 模型 的 
改变 ， 它 需要 做 出 无 颖 衔接 的 决策 。 塞 巴 斯 带 安 的 团队 考虑 这 个 任 
务 ， 束 像 一 个 建筑 师 团队 考 虚 设计 新 建筑 一 样 。 他 们 和 需要 为 斯 坦 利 找 
到 一 个 染 构 。 


1. Dean A.Pomerleau,Alvinn:An Autonomous Land Vehicle in aNeural Network.Technical 
Report, DTIC Document, 1989. 


2. Thrun et al.,“Stanley.” 


斯 坦 利 的 架构 


塞 巴 斯 蒂 安 的 团队 整合 的 架构 由 三 个 独立 的 部 分 组 成 ， 如 图 3.1 所 
示 。 架 构 最 左 侧 的 部 分 是 硬件 层 ， 其 中 包括 传感器 和 执行 器 ， 前 者 负 
责 收 集 数 据 ， 后 者 控制 转向 、 刹 车 和 发 动机 转速 。 硬 件 层 不 会 做 任何 

能 的 事情 ， 它 仅仅 是 从 传感器 (摄像 机 、 激 光 扫 描 仪 和 GPS 系 统 
等 ) 获取 数据 ， 并 使 用 来 自 规划 层 的 命令 (如 发 动机 转速 和 车 轮 角 
EE) 控制 汽车 的 硬件 。 除 了 可 能 被 嵌入 硬件 的 卡尔 曼 滤波 器 外 ， 硬 件 
层 几乎 没有 通常 属于 人 工 智能 或 机 器 学 习 领域 的 东西 。 人 畦 
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层次 规划 。 (斯 坦 利 没有 太 多 高 层次 的 思考 ， 我 们 会 在 下 一 章 中 看 到 
更 多 目 动 驾驶 汽车 的 高 层次 思考 ， 但 在 斯 坦 利 中 这 几乎 不 存在 。) S 
于 道路 上 有 障碍 ， 这 一 层 解决 了 汽车 应 该 如 何 转 向 以 避 开 障碍 的 问 
题 。 这 一 层 负 责 决 定 汽 车 的 实际 当 驶 方式 。 它 将 命令 发 送 到 最 左边 的 
硬件 层 ， 通 常 是 发 送 给 我 们 在 上 一 章 看 到 的 三 规则 控制 器 。 如 采 规 划 
层 希 望 发 动机 以 特定 的 速度 (例如 每 小 时 25 英 里 ) 为 目标 ， 那 么 它 只 
需要 将 该 命令 发 送 给 硬件 控制 器 即 可 。 


图 3.1 中 的 中 间 层 位 于 左 侧 的 硬件 层 和 右 侧 的 思考 层 之 间 。 它 将 传 
感 絮 的 原始 读数 转换 成 可 解释 的 模型 ， 这 样 思考 层 束 可 以 完成 它 的 工 
作 。 其 中 一 些 模型 简单 地 总 结 了 斯 坦 利 需要 遵循 的 高 级 路 线 ， 这 是 斯 
坦 利 在 比赛 开始 时 规划 的 路 线 。 其 他 模型 对 数据 进行 处 理 ， 以 此 告诉 
斯 坦 利 它 的 传 感 絮 看 到 了 什么 。 中 间 层 中 持续 运行 着 各 种 各 样 的 机 器 
学 习 模 块 ， 其 中 包括 我 们 稍 后 会 仔细 研究 的 几 个 道路 检测 系统 ， 这 些 
模块 解释 混乱 无 序 的 传 感 絮 读数 ， 并 把 它们 转换 成 对 世界 更 有 意义 的 
解释 ， 然 后 传递 给 规划 层 。 


Wü dB me H 


硬件 层 中 间 层 ， 或 称 感知 层 ”思考 层 ， 或 称 规划 层 


传感器 : GPS, 感 路 径 规 划 
加 速度 计 、 激 光 


扫描 仪 、 摄 像 机 


执行 器 : 关于 油门 和 
油门 和 转向 转向 的 决策 


图 3.1 斯 坦 利 软 硬 件 组 织 的 简要 总 结 ， 斯 坦 福 车 队 曾 凭借 它 获得 2005 年 无 人 车 挑战 赛 冠军 


这 些 传感器 读数 以 点 云 时 的 形式 进入 中 间 层 ， 或 称 感知 层 。 通 过 
为 右边 的 规划 层 解释 它们 ， 中 间 层 使 规划 层 更 容易 专注 于 其 更 高 层次 
的 推理 e VM d qiie M TE 
法 ， 但 它们 并 不 是 真正 的 智能 。 只 有 在 与 规划 层 共 同 工 作 时 ， 它 们 才 
显得 智能 。 现 在 ， 让 我 们 一 se AL HELENE 知 模块 。 


1. 这些 层 之 间 的 界线 可 能 是 模糊 的 。 例 如 ， 有 时 硬件 层 中 现成 的 传感器 会 使 用 卡尔 曼 
滤波 器 之 类 的 东西 ， 卡 尔 曼 滤 波 器 是 属于 硬件 层 还 是 软件 层 ? 这 其 实 并 不 清楚 。 
2. ”点 云 是 指 在 获取 物体 表面 每 个 采样 点 的 空间 坐标 后 得 到 的 点 的 集合 。 一 一 译 者 注 


避 开 障碍 物 


正如 红色 车 队 所 做 的 那样 ， 斯 坦 福 车 队 也 为 他 们 的 赛车 装备 了 激 
光 扫 描 仪 ， 用 来 “观察 ?周围 的 地 形 。 他 们 给 斯 坦 利 编写 了 程序 ， 让 它 
想象 自己 周围 的 网 格 ， 有 点 像 图 3.2 中 的 网 格 (只 是 他 们 的 地 图 中 每 个 
单元 格 的 面积 要 小 得 多 ) 。 


斯 坦 利 使 用 激光 扫描 仪 的 数据 估计 网 格 中 哪些 单元 格 被 物体 占据 

(图 3.2 中 ， 被 占据 的 单元 格 用 深 灰色 表示 ) 。 然 后 ， 斯 坦 利 的 规划 算 

法 让 和 它 在 没 被 占据 的 单元 格 上 行驶 ， 同 时 转 加 以 避 开 被 占据 的 单元 
格 。 


但 他 们 如 何 判断 一 个 单元 格 是 否 被 占据 ? 塞 巴 斯 带 安 和 他 的 团队 
为 斯 坦 利 编写 的 程序 是 : 测量 每 个 单元 格 的 特征 ， 例 如 单元 格 中 不 同 
点 的 高 度 〈 这 是 他 们 可 以 从 激光 扫描 仪 获得 的 信息 ) 以 及 距离 上 一 次 
精确 测量 这 些 点 的 时 间 有 多 长 。 然 后 ， 他 们 使 用 这 些 测量 值 来 估计 单 
元 格 中 包含 两 个 不 同 高 度 的 点 的 概率 。 如 采 单 元 格 确实 包含 两 个 高 度 
非常 不 同 的 点 ， 那 么 斯 坦 利 便 会 在 地 图 上 将 这 个 单元 格 标记 为 已 被 占 


jg. 


这 种 方法 的 思路 很 对 ， 但 塞 巴 斯 带 安 和 他 的 团队 也 发 现 他 们 标记 
这 些 单元 格 的 算法 不 是 很 好 。 育 先 ， 他 们 的 传 感 邵 测量 结 末 往 往 会 随 
时 间 的 变化 而 浮动 。 如 采 斯 坦 利 的 激 区 扫描 仪 倾 笠 了 几 分 之 一 度 ， 斯 
坦 利 束 会 认为 前 面 有 障碍 物 ， 这 束 会 导致 最 右边 那 一 层 的 规划 算法 命 


令 斯 坦 利 转向 。 斯 坦 福 车 队 本 可 以 投资 数 十 万 美元 购 入 一 个 由 顶尖 研 
究 科学 家 设计 的 昂贵 的 人 体 姿态 估计 系统 ， 但 团队 已 经 拥有 了 这 样 的 
科学 家 ， 所 以 他 们 自己 建立 了 一 个 模型 ， 这 个 模型 对 避免 这 类 测量 误 
差 很 有 用 。 他 们 得 到 的 模型 是 正确 的 ， 至 少 本 质 上 是 正确 的 ， 但 仍然 
有 许多 参数 需要 调整 。 


《 连 线 》 杂 志 的 记者 乔 舒 亚 . 戴 维 斯 (Joshua Davis) 注意 到 ， 塞 巴 
斯 蒂 安 非常 清楚 这 些 局 限 。 比 赛 前 几 个 月 的 一 天 ， 塞 巴 斯 蒂 安 和 斯 坦 
利 在 沙漠 里 ， 他 在 路 边 泪 形 地 踢 着 沙土 ， 因 为 斯 坦 利 偏离 了 正确 的 路 
线 ， 差 点 开 进 沟 里 。( 岂 塞 巴 斯 带 安 发 现 斯 坦 利 与 第 一 次 挑战 赛 中 害怕 
影子 和 灌木 从 的 赛车 有 同样 的 问题 。 他 仔细 思考 ， 试 图 找 出 哪些 算法 


可 以 让 汽车 更 好 地 利用 传感器 的 数据 È 


随后 ， 他 开始 应 用 机 器 学 习 。 塞 巴 斯 带 安 的 解决 方案 是 让 一 个 人 
区 驶 斯 坦 利 ， 同 时 让 它 的 激光 扫描 仪 测量 汽车 周围 的 世界 (有 一 种 说 
法 是 塞 巴 斯 带 安 亲 目 敬 驶 斯 坦 利 收集 这 些 测量 数据 ，， 然 后 保存 这 些 
测量 数据 以 便 以 后 使 用 。 这 个 想法 的 关键 之 处 在 于 ， 无 论 谁 东 驶 斯 坦 
利 ， 他 都 只 会 在 安全 的 路 面 上 驾驶 ， 所 以 斯 坦 利 没有 行驶 过 的 一 些 路 
面 则 可 能 并 不 安全 。 塞 巴 斯 带 安 的 团队 可 以 使 用 传 感 融 的 测量 数据 调 
整 障碍 检测 模型 中 的 许多 参数 ， 这 样 做 实际 上 是 用 数据 “训练 ”算法 。 


塞 巴 斯 蒂 安 的 团队 用 来 预测 哪些 路 面 可 以 安全 行驶 的 方法 ， 被 称 
为 监督 分 类 。 人 党 我 们 将 在 接 下 来 的 几 章 仔 细 探 讨 这 个 方法 ， 但 是 现在 
你 需要 知道 的 是 ， 斯 坦 福 车 队 使 用 的 方法 可 以 被 称 为 一 个 分 类 器 ， 这 
种 分 类 器 让 计算 机 可 以 自动 预测 一 个 项 目 属于 两 个 类 别 中 的 哪 一 个 。 
分 类 器 的 主旨 是 使 用 一 个 可 以 生成 预测 的 简单 数学 画 数 来 组 合 你 的 测 
量 结果 。 这 个 数学 画 数 可 能 有 许多 可 调整 的 “旋钮 "， 这 便 是 我 们 引入 
机 器 学 习 的 地 方 ， 因 为 这 些 “ 旋 钮 "可 以 通过 数据 进行 调整 ， 所 以 预测 
可 以 变 得 非常 精确 。 


斯 坦 福 车 队 用 数据 驱动 的 调整 将 他 们 的 地 形 检测 算法 精确 度 提高 
了 几 个 数量 级 。 在 他 们 使 用 这 一 方法 之 前 ， 斯 坦 利 有 12.69% 的 概率 会 
把 安全 的 路 面 误 认 为 不 安全 的 路 面 ， 这 种 错误 会 让 它 离开 道路 。 在 将 
分 类 器 与 数据 拟 合 后 ， 斯 坦 福 车 队 把 这 个 概率 降低 到 了 原来 的 
1/6000 。( 轩 这 是 他 们 改进 红色 车 队 使 用 的 巨 眼 的 第 一 个 关键 步骤 。 


Thrun et al.,“Stanley.” 
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5. Thrun et al.,“Stanley”;Davis,“Say Hello to Stanley.” 


6. Thrun et al.,“Stanley.” 


寻找 道路 的 边缘 


斯 坦 利 现在 可 以 安全 地 褒 痢 道路 行驶 了 吗 ? 不 完全 可 以 。 这 个 分 
类 需 会 告诉 斯 坦 利 ， 在 它 的 视野 范围 内 哪些 路 面 是 可 以 行驶 的 ， 但 是 
分 类 右 没 有 提供 其 他 任何 关于 道路 的 信息 ， 也 没有 强 担 斯 坦 利 保持 在 
道路 上 行驶 。 使 用 上 面 的 分 类 髓 ， 只 要 越野 路 也 算是 可 以 行驶 的 ， 斯 
坦 利 束 会 心甘情愿 地 离开 正常 道路 。 


不 过 ， 这 或 许 还 说 得 过 去 。 毕 部 ， 从 技术 上 讲 ， 比 赛 并 不 要 求 斯 
坦 利 保持 在 道路 上 行驶 ， 只 要 分 类 器 说 地 形 可 以 行驶 ， 那 么 从 原则 上 
讲 ， 驶 过 这 里 束 是 安全 的 ， 对 吧 ? 但 斯 坦 福 车 队 认识 到 ， 离 开道 路 可 
能 会 有 危险。 正如 他 们 在 赛 后 总 结 中 所 写 的 那样 : “障碍 物 CD une 
石 、 治 木 从 和 围栏 桩 ) 最 常 出 现在 道路 两 边 。 只 要 沿 着 道路 中 间 行 
驶 ， 斯 坦 利 无 须 检 测 到 沙漠 道路 上 的 大 多 数 障 碍 物 束 可 以 避 开 它们 ! ” 
时 他 们 列 出 的 一 些 条 目 正 是 红色 车 队 的 悍马 撞 上 过 的 ， 这 可 能 并 非 侦 
然 。 然 而 ， 他 们 的 观点 是 明确 的 。 所 以 他 们 为 斯 坦 利 的 视觉 系统 开发 
了 男 一 个 算法 ， 这 个 算法 可 以 帮助 斯 坦 利 找到 道路 的 边缘 。 


斯 坦 福 车 队 认 为 ， 道 路 的 边缘 通常 应 该 与 他 们 事先 规划 好 的 道路 
平行 。 因 此 ， 他 们 为 斯 坦 利 另外 安装 了 激光 扫描 仪 ， 激 光 扫 描 仪 沿 着 
与 规划 路 径 平行 的 直线 扫描 汽车 附近 的 路 面 ， 寻 找 道路 的 边缘 ， 如 图 
3.3 所 示 。 


ED 


图 3.3 


然后 ， 这 个 道路 边缘 探测 模块 会 试探 性 地 检测 被 激光 扫 接 到 的 直 
线 上 是 否 有 障碍 物 。 在 没有 检测 到 障碍 物 的 情况 下 ， 两 边 最 靠 外 的 直 
线 会 被 认为 是 它 “ 观 测 ” 到 的 道路 边缘 位 置 。 所 以 当 斯 坦 利 前 进 的 时 
候 ， 这 个 模块 会 收集 许多 这 样 的 观测 结果 。 在 原始 的 形式 下 ， 这 些 结 
条 看 起 来 殉 像 征 汽 车 两 侧 的 一 系列 散 点 。 但 是 ， 一 旦 它们 通过 另 一 个 
卡尔 曼 滤波 器 ， 斯 坦 利 就 能 对 道路 的 边缘 进行 准确 的 估算 。( 四 只 要 其 
坦 利 信 算 出 了 道路 的 边缘 ， 它 就 可 以 对 道路 的 中 央 位 置 进 行 持续 的 估 
算 。 然 后 ， 斯 坦 利 的 路 径 规 划算 法 (我 们 稍 后 会 看 到 ) 会 做 出 判断 ， 


如 果 道 路 上 没有 其 他 障碍 ， 它 就 会 让 斯 坦 利 沿 着 道路 中 央行 驶 。 (机 
器 人 比赛 时 ， 其 路 线 会 禁止 外 部 交通 ， 所 以 没有 迎面 而 来 的 车 辆 。) 


1. Thrun et al.,“Stanley”;Davis,“Say Hello to Stanley.” 


2. Thrun et al.,“Stanley”;Davis,“Say Hello to Stanley.” 


开眼 看 路 


斯 坦 利 的 视觉 系统 仍然 存在 问题 。 即 使 这 些 模块 可 以 让 斯 坦 利 保 
持 在 道路 上 行驶 ， 它 的 激光 扫描 仪 也 只 能 “看 到 * 前 方 约 30 米 的 路 况 。 
对 斯 坦 利 而 言 ， 这 还 不 足以 让 它 安全 地 以 每 小 时 25 英 里 以 上 的 速度 行 
驶 ， 因 为 沙漠 道路 常 有 急 转 弯 ， 就 像 第 一 次 比赛 中 让 悍马 抛锚 的 那个 
急 转 弯 一 样 。( 冉 塞 巴 斯 带 安 和 他 的 团队 计算 出 ， 每 小 时 25 英 里 的 速度 
对 他 们 而 言 太 慢 了 ， 所 以 他 们 要 寻找 另 一 种 方法 ， 让 斯 坦 利 可 以 “看 
到 ”激光 扫描 仪 检测 范围 以 外 的 路 况 。 


他 们 的 解决 方案 是 在 斯 坦 利 的 前 部 安装 彩色 摄像 机 。 摄 像 机 可 
以 < 看 到 ” 比 激光 扫描 仪 更 远 的 距离 ， 所 以 如 果 斯 坦 利 能 确定 道路 延伸 
到 了 前 面 很 远 的 距离 ， 那 么 它 就 会 认为 道路 可 以 安全 行驶 ， 这 样 它 就 
可 以 把 车 速 从 每 小 时 25 英 里 提高 到 每 小 时 45 英 里 。 四 


当 我 们 人 类 看 到 一 条 道路 的 照片 时 ， 一 眼 就 能 清楚 地 看 出 照片 的 
哪 一 部 分 是 道路 ， 哪 一 部 分 是 道路 的 边缘 ， 哪 一 部 分 是 天 空 。 对 计算 
机 程序 而 言 ， 这 些 细节 一 开始 并 不 明显 。 同 样 ， 斯 坦 利 需 要 一 步 步 地 
从 摄像 机 的 图 像 中 找到 道路 。 为 了 做 到 这 一 点 ， 斯 坦 利 采用 了 机 幽 学 
习 中 一 种 被 称 为 聚 类 (clustering). 的 技术 ， 把 具有 相似 颜色 的 像素 组 
织 在 一 起 。 这 样 它 才 可 以 更 好 地 判断 一 个 像素 是 属于 道路 的 一 部 分 ， 
还 是 属于 道路 边缘 的 一 部 分 。 


为 了 理解 斯 坦 利 是 如 何 做 到 这 一 点 的 ， 请 想象 你 是 一 个 刚 洗 了 一 
大 堆 怀 于 的 吸血 风 。 因 为 吸血 购 最 喜欢 的 颜色 是 红色 和 黑 灰 色 ， 所 以 
你 的 袜子 是 各 种 深浅 不 一 的 红 袜 子 和 有 各 种 灰 度 的 怀 子 。 从 洗衣 店 回 
家 后 ， 你 开始 整理 这 些 福子， 将 它们 摊 开 放 在 床上 ， 把 同色 系 的 福子 
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但 是 想象 一 下 ， 你 发 现 了 一 只 亮 绿色 的 袜子 。 这 只 袜子 显然 不 属 
于 两 堆 袜子 中 的 任何 一 堆 ， 所 以 你 断定 它 肯定 是 从 洗衣 店 混 进来 的 ， 
便 扔 掉 了 它 。 


这 正 是 斯 坦 利 推理 摄像 机 图 像 像素 的 方式 。 它 通过 查看 代表 汽车 
前 方 路 面 的 像素 来 创建 道路 像素 的 聚 类 。 在 沙漠 中 ， 你 可 以 想象 代表 
这 些 道路 的 像素 可 能 是 灰色 和 棕色 的 混合 ， 这 会 导致 斯 坦 利 最 终 得 到 
一 个 灰色 像素 聚 类 和 一 个 棕色 像素 聚 类 。( 汪 然后 ， 斯 坦 利 会 测试 图 像 
中 其 他 像素 是 否 与 这 两 个 聚 类 匹配 。( 寺 如 果 与 聚 类 匹配 ， 它 们 就 是 道 
路 的 一 部 分 ， 否 则 ， 斯 坦 利 就 会 拒绝 它们 ， 认 为 它们 不 是 道路 的 一 部 
分 ， 就 像 你 扔 掉 绿 袜子 一 样 。 一 旦 斯 坦 利 确定 出 哪些 像素 属于 道路 ， 
它 就 可 以 用 简单 的 几何 方法 估算 出 道路 在 前 方 延伸 了 多 远 。 如 果 道 路 
在 斯 坦 利 前 方 延伸 了 很 长 的 一 段 距 离 ， 那 么 它 就 可 以 加 速 行驶 。 斯 坦 
利 的 这 个 道路 观察 模块 持续 运行 ， 定 时 重复 ， 不 断 调整 对 道路 颜色 的 
估算 。 


斯 坦 利 能 确定 它 选 择 了 正确 的 像素 来 建立 对 道路 颜色 的 估算 吗 ? 
难道 斯 坦 利 不 可 能 无 意 中 选 择 了 路 边 的 像素 来 建立 聚 类 ， 而 没有 选择 
道路 上 的 像素 ? 在 确定 哪些 像素 钙 道路 时 ， 算 法 当然 可 能 会 出 错 ， 玖 
像 任何 算法 都 可 能 出 错 一 样 ， 但 这 个 问题 在 一 定 程度 上 被 缓解 了 
征 因 为 斯 坦 利 还 有 其 他 模块 ， 比 如 检测 可 行驶 地 形 的 模块 ， 二 是 因为 
该 算法 只 被 用 于 控制 速度 ， 不 控制 转 同 。 即 使 斯 坦 利 离开 道路 一 段 时 
间 ， 它 仍然 不 会 撞车 。 一 旦 斯 坦 利 重新 上 路 ， 它 的 道路 观察 模块 瓯 可 
以 迅速 调整 到 正确 的 道路 颜色 。 


1. Thrun et al.,“Stanley”;Davis,“Say Hello to Stanley.””Davis,“Say Hello to Stanley.” 


2. Thrun et al.,*Stanley";Davis, "Say Hello to Stanley." 
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4. 


RGB ( 红 、 绿 、 蓝 色彩 模式 ) 是 任意 标 度 。 在 
[亮度 、 


这 个 测试 将 天 空 视 为 例外 ， 他 们 在 预 处 型 


之 前 将 其 转换 为 一 组 不 同 的 数字 ， 例 妇 


饱和 度 ( 即 灰 度 ) 以 及 色相 。 
Dp 


许多 情况 下 ， 研 究 人 员 在 


中 排除 了 这 个 例外 。 


ETE 


jRGB 


路 径 规 划 


斯 坦 利 检 测 道 路 和 障碍 物 的 模块 位 于 图 3.1 所 示 架 构 中 间 的 感知 
层 。 挥 制 斯 坦 利 速度 的 软件 位 于 架构 右边 的 规划 层 。 右 边 的 规划 层 不 
需要 看 传 感 紫 的 原始 数据 ， 它 只 是 利 用 感知 层 的 信息 来 做 决定 。 斯 坦 
利 规划 层 中 的 男 一 个 算法 是 用 来 规划 障碍 物 周围 路 径 的 软件 。 但 在 斯 
坦 利 能 够 有 意 避 开 障 碍 物 之 前 ， 它 需要 有 一 条 完整 的 路 线 可 循 。 


距 像 红色 车 队 的 悍马 一 样 ， 斯 坦 利 在 比赛 开始 时 就 预 完 规划 了 全 
程 路 线 。 斯 坦 利 的 路 线 不 像 红 色 车 队 那 样 包 含 地 形 的 外 部 信息 。 正 如 
我 们 将 看 到 的 ， 斯 坦 福 车 队 的 感知 算法 非常 好 ， 足 以 让 斯 坦 利 在 行驶 
过 程 中 发 现 并 避 开 障碍 。 相 反 ， 斯 坦 利 的 路 线 规划 算法 的 主要 目标 只 
征 提供 一 条 接近 赛事 组 织 者 给 出 的 GPS 坐标 的 路 线 ， 并 且 使 GPS 坐标 
之 间 用 直线 连 成 的 路 线 中 的 急 转 弯 变 得 平滑 。 这 个 算法 在 比赛 开始 后 


只 花 了 斯 坦 利 20 秒 的 时 间 È 


一 旦 斯 坦 利 规 划 好 了 这 条 平滑 的 路 线 ， 它 需要 做 的 吏 是 沿 着 这 条 
路 线 行 进 ， 用 它 的 感知 算法 避 开 沿途 发 现 的 障碍 。 正 如 我 们 先前 看 到 
的 ， 斯 坦 利通 过 寻找 在 障碍 物 周 围 哪些 地 方 可 以 行驶 来 定位 障碍 物 ， 
而 障碍 物 是 被 标记 为 不 可 行驶 的 方形 单元 格 。 为 了 绕 过 这 些 障碍 物 ， 
斯 坦 利 不 断 重新 计算 从 当前 位 置 〈 在 给 定 的 时 刻 无 论 它 在 哪里 ) 到 预 
定 路 线 上 稍微 远 一 点 的 目标 (比如 10 秒 后 的 位 置 ) 的 最 佳 路 径 ， 无 论 
那个 目标 在 哪里 。 当 斯 坦 利 规划 这 条 路 径 时 ， 它 只 需要 找到 一 种 方 
法 ， 让 汽车 在 不 撞 上 任何 物体 的 情况 下 从 当前 位 置 到 达 目 标 位 置 。 只 
要 斯 坦 利 能 够 继续 规划 并 执行 这 些 路 径 ， 汽 车 吏 会 成 功 地 沿 痢 路 线 继 
续 前 进 ， 而 不 会 撞 上 任何 物体 。 


Mics, ERP SY SUR RIAH T — Th A BX, 
这 个 函数 表示 了 悍马 在 地 图 上 的 每 个 小 方 格 上 行驶 所 需要 的 时 间 。 斯 
坦 利 需要 类 似 的 成 本 函数 来 避 开 障碍 。 一 个 可 能 的 想法 古 ， 根 据 网 格 
中 每 个 单元 格 到 最 近 的 障碍 物 的 距离 ， 在 单元 格 设置 一 些 惩 济 ， 斯 坦 
利 可 以 利用 成 本 函数 找到 一 条 尽 可 能 远离 沿途 障碍 物 的 路 径 。 事 实 
上 ， 这 正 是 斯 坦 福 车 队 最 初 的 等 试 。 这 个 算法 可 以 让 斯 坦 利 远离 障碍 
物 ， 但 它 也 使 斯 坦 利 为 了 避 开 障碍 物 而 毫 无 规则 地 拟 来 抛 去 。 俩 究 小 
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为 了 解决 这 个 问题 ， 他 们 对 斯 坦 利 进行 了 编程 ， 让 它 沿 着 一 条 与 
赛 前 计算 出 的 平滑 路 线 平 行 的 虚拟 走廊 行驶 。 他 们 的 目标 是 让 斯 坦 利 
尽 可 能 快 地 沿 着 这 条 走廊 行驶 ， 只 在 走廊 内 向 左 或 向 右 转 以 避 开 障碍 
物 。 这 就 好 像 斯 坦 利 在 玩 一 款 经 典 的 街机 驾驶 游戏 ， 游 戏 中 全 部 的 控 
制 就 只 有 加 速 、 刹 车 以 及 沿 着 固定 的 路 线 向 左 或 向 右 滑动 。 在 没有 障 
碍 物 的 情况 下 ， 斯 坦 利 的 程序 还 让 它 向 道路 边缘 探测 器 探测 到 的 道路 
中 央 移 动 。 为 了 和 弄 清 楚 它 应 该 向 左 还 是 向 右 移动 以 及 需要 移动 得 多 
快 ， 也 就 是 说 ， 它 是 否 需 要 加 速 或 快速 转向 ， 斯 坦 利 仍然 使 用 了 搜索 
算法 ， 但 它 只 考虑 其 现在 和 片刻 之 后 的 位 置 之 间 的 平滑 路 径 。 它 的 成 
本 画 数 惩罚 了 一 些 事情 ， 包 括 远离 预先 规划 的 路 径 行驶 、 轰 车 越过 障 
碍 物 以 及 远离 道路 中 央行 驶 。 然 后 ， 路 径 规 划算 法 会 考虑 其 中 的 许多 
路 径 ， 并 选择 它 找到 的 最 佳 路 径 。 当 汽车 沿 着 路 线 高 速 前 进 时 ， 这 个 
算法 会 持续 运行 ， 每 秒 大 约 重复 10 次 ， 这 个 速度 足以 让 斯 坦 利 发 现 并 
避 开 前 方 15~25 米 的 物体 。 


1. Thrun, “Stanley.” 
2. Russell, "DARPA Grand Challenge Winner.” 


3, Thrun,*Stanley"(note that the distance depended on the speed). 


斯 坦 利 大脑 的 各 个 部 分 如 何 相 互 交 流 


当 斯 坦 福 车 队 设 计 斯 坦 利 时 ， 车 队 需 要 弄 清 楚 所 有 这 些 算法 应 该 
如 何 相互 通信 。 他 们 知道 如 何 将 它们 连接 起 来 ， 但 这 还 不 够 ,他 们 还 
需要 弄 消 楚 这 些 算法 在 相互 交流 时 所 遵循 的 协议 。 是 否 应 该 有 一 个 集 
中 的 “ 主 进程 ”来 指挥 一 切 ? 它 应 该 被 组 织 成 菜 种 层次 结构 吗 ? 车 队 选 
择 了 完全 相反 的 做 法 .他们 将 这 些 不 同 的 软件 模块 组 合 在 一 起 ， 让 它 
们 并 行 运行 。 没 有 “ 主 进 程 "来 指导 这 些 模块 该 做 什么 。( 晤 


你 可 以 把 这 些 模块 想象 成 洒 货 店 里 的 工人 ， 他 们 每 个 人 都 有 各 目 
的 工作 。 杂 货 店 的 理 货 员 从 停 在 后 门 的 货车 上 翻 货 ， 然 后 把 这 些 货物 
放 到 正确 的 货架 上 。 收 银 员 为 顾客 结账 ， 经 理 定期 把 现金 从 收 款 机 转 
到 银行 ， 为 杂货 店 订购 更 多 的 商品 。 每 个 工人 都 在 持续 不 断 地 做 着 目 
己 的 工作 ， 而 且 大 部 分 工作 都 症 独 立 于 其 他 人 的 。 


因为 商品 被 源源 不 断 地 放 到 货架 上 ， 而 且 收 银 员 忌 是 在 收 款 机 劳 
为 顾客 结账 ， 所 以 顾客 可 以 很 快 地 进出 杂货 店 。 我 们 可 以 说 杂货 店 的 
服务 息 低 延迟 的 。 服 务 的 速度 很 快 ， 因 为 收银 员 只 有 一 项 工作 一 一 为 
顾客 结账 ， 他 不 负责 往 银 行 存 钱 ， 也 不 负责 理 货 。 


同 理 ， 斯 坦 利 也 可 以 对 事件 做 出 快速 反应 : 它 的 每 个 模块 都 可 以 
快速 反应 ， 尤 其 是 那些 需要 对 环境 做 出 反应 的 模块 ， 因 为 每 个 模块 只 
有 一 项 工作 要 做 。 斯 坦 利 的 模块 之 所 以 可 以 对 环境 做 出 快速 反应 ， 是 
因为 它们 彼此 从 未 进行 过 充分 的 对 话 。 过 多 的 对 话 可 能 导致 参与 者 被 
锁定 在 对 话 中 ， 这 样 的 问题 被 称 为 死 锁 (deadlock) 。 如 有 果 两 个 组 件 
陷入 死 锁 ， 整 个 系统 可 能 会 突然 停止 ， 直 到 一 个 或 多 个 组 件 重 新 局 动 
后 才能 恢复 。 


这 并 不 意味 着 这 些 模 块 之 间 没 有 通信 。 它 们 始终 通过 向 对 方 发 送 
单 问 的 、 有 时 间 玲 的 信息 进行 看 通信 。 这 类 似 于 在 杂货 店 设立 公告 系 
统 ， 例 如 ， 经 理 可 以 提醒 收银 员 ， 商 店 的 1 美元 钞票 快 用 完了 ， 建 议 仅 
在 必要 时 使 用 它们 。 如 采 收 银 员 从 不 与 经 理 陷 入 长 时 间 的 交谈 ， 那 么 
他 束 可 以 更 可 靠 地 为 顾客 服务 。 


在 目 动 芍 驶 汽车 中 ，GPS 和 加 速 计 估算 汽车 的 位 置 和 方向 ， 用 当 
前 的 时 间 戳 发 布 这 些 信息 ， 并 继续 为 余下 的 比赛 获取 和 发 布 最 新 的 位 
置信 息 ， 这 是 它们 唯一 的 工作 。 负 责 像素 聚 类 和 寻 路 的 模块 获取 了 摄 
像 机 和 激光 扫描 仪 的 数据 ， 找 到 道路 ， 然 后 发 布 这 些 信 息 ， 以 便 速 度 
控制 大 和 路 径 规 划 郝 可 以 方便 地 使 用 信息 。 与 此 同时 ， 寻 路 模块 根据 
机 右 人 当前 的 位 置 和 路 上 的 障碍 物 估 算出 最 佳 路 径 ， 每 秒 钟 重复 10 
次 。 忌 共 大 约 30 个 模块 都 是 这 样 工作 的 。 


这 些 模块 为 斯 坦 福 车 队 谨 得 了 200 万 美元 奖金 ， 并 使 斯 坦 利 在 机 器 
人 历史 上 占据 了 一 席 之 地 。 这 文 车 队 理 应 获胜 ， 但 按照 现代 目 动 营 驶 
汽车 的 标准 ， 斯 坦 利 仍然 非常 原始 。 事 实 上 ， 完 成 第 二 次 无 人 车 挑战 
赛 的 5 辆 汽车 都 不 能 在 城市 街道 上 行驶 。 它 们 无 法 面 对 迎 面 而 来 的 车 
流 ， 无 法 寻找 停车 位 、 换 车 道 以 及 处 理 交 通 墙 塞 的 问题 。 


这 并 不 是 设计 上 的 缺陷 。 这 些 汽车 只 是 为 了 参加 比赛 而 存在 的 ， 
比赛 并 不 要 求 它 们 可 以 在 城市 街道 上 行驶 。 但 是 DARPA 举 办 的 下 一 届 
比赛 一 DARPA 城市 挑战 赛 ， 将 会 改变 这 一 切 。 该 比赛 要 求 机 严 人 汽 
车 在 有 车 辆 迎面 驶 来 的 城市 街道 上 按照 加 利 福 尼 亚 州 的 交通 法 规 行 
驶 。 这 也 给 了 克 里 斯 和 他 在 卡 内 基 - 梅 隆 大 学 的 团队 〈 那 文 打造 悍马 的 
车 队 ) 再 度 冲 击 第 一 名 的 机 会 ， 只 要 他 们 可 以 制造 一 辆 汽车 来 完成 所 
有 这 些 事情 。 


1. Thrun,“Stanley” (note that the distance depended on the speed). 


4 ”在 十 字 路 口 避 让 : 目 动 区 驶 汽车 的 大 
脑 
在 这 一 点 上 ， 问 题 自 然而 然 地 出 现 了 ， 为 什么 这 么 多 独立 设计 的 


架构 会 有 如 此 相似 的 结构 ? 三 个 组 成 部 分 是 充分 必要 的 ， 还 是 一 个 漂 
亮 的 数字 或 一 个 巧合 而 已 ? 


埃 伦 . 加 特 (Eran Gat) (8) 


1. Erann Gat,"Three-Layer Architectures,"in Artificial Intelligence and MobileRobots:Case 
Studies of Successful Robot Systems,ed.David Kortenkamp,R.Peter Bonasso,and Robin 
Murphy(Cambridge,MA:MIT Press,1998),195—210. 


城市 挑战 赛 


克 里 斯 - 厄 姆 森 的 团队 在 接 下 来 的 两 年 里 一 直 在 为 城市 挑战 赛 做 准 
备 。 这 时 ， 克 里 斯 已 经 成 为 卡 内 基 - 梅 隆 大 学 的 一 名 教授 。 他 也 是 卡 内 
基 -- 梅 隆 大 学 车 队 的 全 权 负 责 人 ， 车 队 现在 改名 为 格子 车 队 (Tartan 
Racing) 。 克 里 斯 的 团队 不 仅 做 了 相当 大 的 调整 ， 还 让 他 们 的 悍马 退 
役 了 ， 转 而 选择 2007 款 雪佛兰 塔 霍 汽 车 ， 他 们 将 这 辆 赛车 命名 为 Boss 
(NEM) 。Boss 融 合 了 他 们 先前 设计 的 优点 以 及 他 们 从 前 一 年 
的 斯 坦 福 车 队 学 到 的 很 多 东西 。 人 所 ) 


这 次 挑战 赛 比 前 两 次 要 困难 得 多 。 在 前 两 次 比赛 中 ， 所 有 机 右 人 
汽车 都 是 单独 行驶 的 ， 一 个 接 一 个 地 出 发 并 被 监控 着 ， 因 此 它们 不 会 
互相 干扰 。 但 城市 挑战 赛 不 同 。 这 些 目 动 要 驶 汽车 将 在 城市 街道 、 十 
字 路 口 和 集 车 场 与 人 类 司机 一 起 围 着 一 座 老 军 事 基 地 行驶 ， 共 有 大 约 
50 辆 汽车 同时 在 路 上 。 而 且 这 里 也 不 允许 越野 行驶 ， 因 为 那样 汽车 会 
因为 违犯 加 利 福 尼 亚 州 的 交通 法 规 而 被 扣 分 ， 甚 至 被 取消 比赛 资格 。 


DARPA 在 2007 年 11 月 的 比赛 之 前 举行 了 几 轮 预选 赛 。 有 一 轮 预选 
赛 被 称 为 “夹击 ”， 它 要 求 赛车 小 心地 保持 在 自己 的 车 道内 行驶 ， 同 时 
还 要 避 开 停放 的 车 辆 和 其 他 障碍 物 。 另 一 轮 预 选 赛 测试 了 赛车 的 更 高 
层次 思维 ， 赛 车 需要 在 十 字 路 口 停 下 来 等 待 ， 并 在 轮 到 它们 通行 的 时 
候 继续 前 进 ， 并 且 它 们 需要 判断 路 径 何 时 会 被 挡住 ， 并 在 被 挡住 的 时 
候 找 到 另 一 条 路 径 。 


还 有 一 轮 预 选 赛 被 称 为 “A 区 ”， 它 测试 了 汽车 探测 和 和 避 开 移动 物 
体 的 能 力 。 这 一 轮 预 迁 赛 需要 目 动 驾驶 汽车 绕 圈 行驶 ， 在 迎面 而 来 的 
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图 4.1 DARPA 城 市 挑战 赛 中 的 “<A 区 ”。 当 自动 笃 驶 汽车 在 右 半 部 分 绕 圈 时 ， 专 业 的 人 类 芍 驶 员 
在 外 环 中 绕 圈 。 自 动 芍 驶 汽车 面临 的 主要 挑战 是 在 “停车 让 行 ”标志 处 与 沿 外 环行 驶 的 车 辆 合 
流 。 比 赛 要 求 自动 萄 驶 汽车 在 规定 时 间 内 尽 可 能 多 地 绕 圈 


1. Chris Urmson et al., "Autonomous Driving in Traffic:Boss and the Urban Challenge,” AI 
Magazine30,no.2(2009). 


2. Urmson et al., "Autonomous Driving in Traffic." 


感知 抽象 


为 了 理解 Boss 在 这 些 环境 中 的 操控 方式 ， 让 我 们 更 深入 地 了 解 一 
下 元 里 斯 的 团队 是 如 何 开发 汽车 大 脑 的 。 就 像 斯 坦 利 (斯坦福 车 队 在 
第 二 次 无 人 车 挑战 赛 中 的 赛车 ) 一 样 ， 克 里 斯 及 其 团队 在 Boss 的 大 脑 
中 指定 了 一 个 层 ， 用 于 综合 来 自 18 个 传感器 的 数据 。 他 们 将 这 个 中 间 
层 称 为 “感知 和 环境 建 模 层 ”( 如 图 4.2 所 示 ) 。 与 斯 坦 利 的 感知 层 一 
样 ，Boss 的 感知 层 也 没有 任何 复 洒 的 推理 ， 它 的 唯一 目的 古 解 释 来 目 
各 个 传感器 (包括 激光 扫描 仪 、 雷 达 、 摄 像 机 、GPS 和 加 速度 计 等 ) 
的 数据 ， 并 根据 这 些 数 据 生成 更 高 层次 的 环境 模型 。 然 后 ， 该 层 生 成 
的 环境 模型 将 被 在 更 高 层次 上 进行 推理 的 模块 用 于 执行 更 复杂 的 任 


& o &) 


感知 和 环境 建 模 层 执行 了 我 们 在 先前 的 比赛 中 看 到 的 一 些 任务 : 
估算 道路 边缘 的 位 置 、 发 现 障碍 物 、 根 据 GPS 数 据 和 加 速度 计 跟 踪 汽 
车 的 位 置 。 但 是 对 于 在 城市 环境 中 行驶 ， 感 知 和 环境 建 模 层 需要 做 更 
多 工作 。 随 着 其 他 汽车 来 来 往往 ，Boss 所 处 的 环境 可 能 会 发 生变 化 。 
因此 ， 这 一 层 要 用 地 图 上 的 网 格 表示 树木 和 建筑 物 这 些 静 态 物体 ， 当 
传感器 检测 到 物体 存在 时 就 填充 单元 格 ， 如 果 不 存 在 就 清空 单元 格 。 
它 还 要 理解 DARPA 提 供 的 地 图 以 及 任务 的 说 明 ， 然 后 根据 检测 到 的 地 
图 上 路 径 的 堵塞 情况 调整 地 图 (2) 
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图 4.2 Boss 的 简化 版 架构 
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Boss 的 感知 和 环境 建 模 层 还 需要 检测 和 模拟 移动 物体 的 物理 特 
: o 检测 移 动物 体 的 模块 要 遵守 一 个 规则 : 


观察 部 应 


Boss= 


会 为 这 种 关联 计算 一 


ENN eas 


所 做 的 每 一 次 
该 与 它 的 物体 数据 库 中 的 一 个 固定 的 或 移动 的 物体 相关 联 。 
个 质量 测评 。 如 果 测 评 结 有 果 和 物体 之 间 匹 配 


民 好 ， acc aM AA ca FOR KA 体 的 建 模 中 ， 这 


样 ， 在 Boss 看 来 ， 物 体 就 会 改变 一 


AA 


o 但 是 如 果 Boss 无 法 在 测评 结 
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体 来 解释 这 个 测评 结果 。 有 时 ， 它 会 判定 有 一 个 静态 物体 ， 然 后 将 其 
转换 为 移动 物体 。 例 如 ， 如 果 Boss 遇 到 一 辆 停 在 停车 位 但 随后 开始 移 
动 的 汽车 ， 束 会 发 生 这 种 情况 。 


一 旦 Boss 探 测 到 一 个 移动 物体 ， 它 束 可 以 使 用 传统 的 跟 路 算法 来 
跟踪 这 个 物体 。Boss 又 一 次 使 用 了 卡尔 曼 滤 波 器 来 跟踪 移动 物体 。 亿 
它 还 假设 物体 或 是 像 目 行车 一 样 移动 (可 以 向 前 或 向 后 移动 ， 并 且 有 
目标 ) ， 或 是 像 漂移 点 一 样 移动 (可 以 向 任意 方向 移动 ， 但 没有 目 
ËR) ，Boss 根 据 最 适合 数据 的 模型 做 出 决定 。 然 后 ， 关 于 这 些 模型 的 
假设 被 直接 集成 到 卡尔 曼 滤 波 嚣 中。 卡尔 曼 滤 波 絮 非常 通用 ， 它 们 不 
仅 可 以 跟踪 物体 的 位 置 ， 还 可 以 跟踪 物体 的 速度 和 加 速度 。 


Boss 将 这 些 物 体 想象 成 在 它 的 虚拟 环境 中 移动 的 矩形 和 其 他 多 边 
形 。( 辐 当然 ，Boss 并 没有 把 它们 视 作 场 景 的 一 部 分 ， 而 是 把 它们 视 作 
网 格 上 的 坐标 。 对 Boss 而 言 ， 每 个 矩形 间 都 应 有 足够 的 间隔 ， 无 论 
Boss 是 在 车 道上 跟随 矩形 还 是 从 对 面 车 道德 着 矩形 前 进 。 


1. Urmson et al.,“Autonomous Driving in Traffic." 
2. 路 线 图 是 DARPA 在 比赛 前 两 天 提供 的 ， 任 务 说 明 是 在 比赛 当天 提供 的 。 
DARPA, “Urban Challenge Results,”accessed 


October22,2016.http://archive.darpa.mil/grandchallenge;Chris Urmson et al.,“Tartan Racing:A 
Multi-modal Approach to the DARPA Urban Challenge,"Technical Report,Carnegie Mellon 
University,2007. 


3. Urmson et al.,“Tartan Racing.” 斯 坦 福 大 学 的 团队 使 用 了 一 种 类 似 的 方法 来 跟踪 物 
体 ， 这 种 方法 被 称 为 “粒子 过 滤器 ”( 参 见 下 条 Michael Montemerlo et al.,“Junior”) ° 1! 
子 过 滤器 实现 了 类 似 的 目标 ， 但 所 做 的 假设 略 有 不 同 。 

4. Michael Montemerlo et al.,“Junior:The Stanford Entry in the Urban Challenge,”Journal 
of Field Robotics29,no.9(2008):569—597. 


比赛 


经 过 几 个 月 的 测试 和 期 等 ， 城 市 挑战 赛 终于 来 了 。 在 比赛 期 间 ， 
Boss 和 其 他 车 辆 需要 完成 儿 个 任务 ， 从 基地 的 一 个 检查 站 开 到 另 一 个 
难 碍 站 ， 它 们 目 始 至 终 都 要 在 满 是 目 动 芝 驶 汽车 和 人 类 区 驶 汽车 的 城 
市 街道 上 行驶 。DARPA 在 比赛 前 儿 天 癌 参 赛 选 手提 供 了 场地 路 线 图 ， 
并 在 比赛 开始 前 仅仅 5 分 钟 的 时 候 同 参赛 队伍 提供 了 任务 说 明 。 这 些 任 
务 有 要 求 车 辆 完全 目 主 地 在 场地 的 街道 上 行驶 、 在 俘 车 场 停车 、 穿 过 党 
忙 的 十 字 路 口 。 


DARPA 官 员 在 赛 后 写 道 ， 他 们 仔细 审查 了 参赛 者 的 申请 ， 通 过 预 
赛 将 最 后 参加 决赛 的 车 队 从 89 支 减少 到 11 支 ， 这 意味 着 行驶 在 决赛 
道上 的 赛车 都 经 过 了 仔细 的 审查 。( 波 | 但 这 并 不 意味 着 路 上 的 人 类 轰 
驶 员 就 安全 了 ， 他 们 都 是 职业 罗 驶 员 ， 都 配备 了 安全 护 笼 、 赛 车 座 椅 
和 灭火 系统 ， 每 辆 自动 驾驶 汽车 后 都 有 一 辆 人 类 鸭 驶 汽车 尾随 ， 车 上 
的 驾驶 员 能 遥控 电子 灭火 器 的 开关 。 自 动 四 驶 汽车 虽然 经 过 了 审查 ， 
但 仍然 很 有 可 能 威胁 人 类 驾驶 员 的 生命 安全 o 


幸运 的 是 ， 比 赛 当 天 没有 发 生 重大 事故 。 一 辆 赛车 在 停车 场 发 生 
故障 ， 并 险些 在 DARPA 官 员 按 下 电子 灭火 器 开关 之 前 开 进 一 栋 旧 楼 。 
另外 两 辆 自动 区 驶 汽车 之 间 发 生 了 低速 碰撞 。 到 中 午 的 时 候 ， 几 乎 半 
数 赛车 退出 了 比赛 。 包 


选 
赛 


然而 ， 包 括 Boss 在 内 的 几 辆 赛车 还 是 成 功 完 赛 了 。 在 三 年 的 时 间 
里 ， 目 动 当 驶 汽车 从 无 法 在 沙漠 中 行驶 超过 8 英里 变 成 了 可 以 在 路 上 行 
驶 数 小 时 ， 成 功 穿 过 楷 低 的 十 字 路 口 。 除 了 用 感知 和 环境 建 模 层 进 行 
观察 外 ，Boss 和 其 他 汽车 还 需要 一 种 方法 来 推算 它们 的 环境 。 在 之 前 


的 两 章 中 ， 我 们 看 到 的 汽车 全 都 无 法 做 到 这 些 ， 那 么 Boss 征 如 何 做 到 
HUE? 


1. DARPA,“Urban Challenge Results." 
2. DARPA,*Urban Challenge Results." 


3. DARPA,*Urban Challenge Results." 


Boss 的 高 层次 推理 层 


硬件 的 改进 是 一 个 因素 吗 ? 当然 ， 硬 件 一 直 在 改进 ， 但 是 目 第 一 
次 DARPA 无 人 竹 挑战 赛 以 来 的 三 年 里 ， 目 动 当 驶 汽车 的 硬件 并 没有 出 
现 超越 摩尔 定律 的 显著 革新 。 (摩尔 定律 当时 预测 ， 流 行 处 理 器 的 性 
BEAL 18~24 NHE o) 这 个 问题 的 真正 答案 在 于 这 些 汽 车 软件 
架构 的 进步 ， 但 这 也 是 Boss 在 比赛 中 产生 “幻觉 ?的 原因 。 


Boss 的 大 脑 核心 是 三 个 模块 ， 它 们 的 抽象 推理 层次 逐个 降低 。 你 
可 以 在 图 4.2 的 架构 最 右边 的 板块 中 看 到 这 一 点 。 这 个 板块 的 顶部 是 路 
线 规 划 器 模块 ， 它 搜索 Boss 从 当前 位 置 到 任务 的 下 一 个 检查 点 的 低 成 
本 路 线 。 这 很 像 斯 坦 利 的 模块 ， 该 模块 在 第 二 次 无 人 车 挑战 赛 开始 的 
时 候 为 斯 坦 利 规划 了 平滑 的 路 线 。Boss 的 路 线 规划 器 不 是 在 比赛 开始 
时 规划 一 条 单一 的 路 线 ， 而 是 不 断 地 规划 路 线 ， 一 次 又 一 次 地 重新 估 
算 从 当前 位 置 到 目的 地 的 最 佳 路 线 。 为 了 估算 路 线 ， 路 线 规划 融 在 成 
本 函数 中 使 用 了 时 间 和 风险 的 组 合 ， 相 信和 感知 和 环境 建 模 层 总 是 同 它 
提供 最 新 的 地 图 。 因 此 ， 它 需要 做 的 束 古 规划 路 线 ， 并 告诉 它 下 面 的 
模块 〈 即 位 于 图 4.2 最 右边 的 板块 中 间 的 模块 ) 接 下 来 需要 做 什么 。 转 


我 们 将 路 线 规划 器 下 面 的 抽象 层 称 为 大 富翁 棋盘 模块 ， 原 因 你 很 
快 就 会 清楚 。 人 党) 这 一 层 可 以 说 是 最 复杂 的 ， 因 为 它 需 要 跟踪 Boss 正 在 
做 什么 以 及 接 下 来 需要 做 什么 。 它 是 用 一 种 叫 * 有 限 状 态 机 ”的 东西 来 
实现 这 些 的 。( 沪 有 限 状态 机 为 计算 机 程序 提供 了 一 种 通过 限制 其 需要 
处 理 的 事情 来 推算 环境 的 方法 。 它 的 工作 原理 很 像 《大 富翁 》 游 戏 : 
你 有 一 枚 可 以 在 棋盘 上 移动 的 棋子 ， 在 任意 给 定 的 时 间 ， 你 的 棋子 都 
会 在 棋盘 上 精确 地 处 于 一 个 状态 (即位 置 )。 这 个 状态 决定 了 你 现在 
可 以 做 什么 以 及 下 一 步 你 可 以 移动 到 什么 地 方 。 如 果 在 玩 《 大 富翁 》 


PIE BI T ANA A SR Bd, PTET LSE RE o MUA RET 
监狱， 要 出 去 有 三 种 方法 : ERRERA ET, Cex 5058 
To, ZEF T| — IK RIEF” © 游戏 的 规则 以 及 你 的 棋子 在 棋盘 上 的 状 
仿 为 你 简化 了 《大 语 合 》 玩 家 的 世界 ， 这 样 你 束 不 会 被 各 种 可 能 性 淹 
没 。 也 就 十 说 ， 当 你 在 广场 上 时 ， 任 何不 被 明确 允许 做 的 事情 ， 你 都 
不 能 去 做 。 如 果 你 走 到 了 公园 ， 束 无 法 购买 木板 路 或 收取 200 美 元 ， 除 
了 购买 公园 〈 只 要 没 人 占领 ， 而 且 你 想 要 它 ) ， 你 什么 都 做 不 了 。 


你 在 大 富 倪 棋 盘 模块 上 的 当前 状态 (依然 是 你 的 位 置 ) 也 决定 了 
你 下 一 步 可 以 移动 几 步 。 这 取决 于 找 角 子 的 结果， 有 了 时 你 可 能 会 同 前 
移动 多 达 12 个 格 ， 然 后 购买 一 处 地 产 ， 有 时 你 可 能 会 直接 进 监狱 。 但 
征 你 不 能 跳 到 棋盘 上 的 任意 位 置 。 


克 里 斯 及 其 团队 设计 Boss 的 时 候 ， 为 大 主公 棋 一 模块 创造 了 各 种 
有 限 状 态 机 ， 每 一 种 分 别 适 用 于 Boss 可 能 会 遇 到 的 环境 状态 。 当 Boss 
驱车 前 行 时 ， 它 的 大 富翁 棋盘 模块 围 红 着 它 的 有 限 状 态 机 移动 一 枚 虚 
拟 的 大 富 例 棋子 ， 以 此 记录 汽车 正在 做 什么 以 及 需要 做 什么 来 实现 下 
—^ Hs ? 
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(一 个 负责 沿 着 道路 行驶 ， 比 如 监控 是否 需要 换 车 道 ; 一 个 负责 十 字 
路 口 ; 还 有 一 个 负责 操控 Boss 进 入 某 个 特定 的 位 置 ， 例 如 集 车 位 或 拥 
挤 的 十 字 路 口 的 另 一 侧 ) 中 的 一 个 。 这 些 有 限 状态 机 中 的 每 一 个 都 概 
述 了 模块 为 实现 其 目标 应 该 遵循 的 一 组 简单 规则 。 无 论 在 哪里 ，Boss 
的 大 富 斧 棋盘 模块 都 会 用 它 在 棋盘 上 的 虚拟 棋子 来 追 踩 环 境 和 和 它 的 目 
标 。 


图 4.3 展 示 了 简化 版 的 Boss 用 于 通过 十 字 路 口 的 有 限 状 态 机 。( 轩 在 
这 个 有 限 状 态 机 中 ， 你 可 以 理解 Boss 穿 过 十 字 路 口 的 推理 过 程 。 当 轮 
到 Boss 进 入 十 字 路 口 时 ， 它 会 等 待 十 字 路 口 清空 ， 并 确保 安全 时 间 长 


到 足以 让 它 通过 。Boss 通 过 使 用 男 一 个 更 小 的 叫 “ 优 先 权 估 算 器 ”的 有 
限 状 态 机 来 实现 这 一 点 。 优 先 权 估算 器 根据 常见 的 芝 驶 规则 来 确 害 
Boss 是 否 有 进入 十 字 路 口 的 优先 权 。Boss 如 何 知道 这 些 轨 驶 规则 ? 程 
序 员 只 需 将 它们 编码 为 有 限 状 态 机 的 一 组 状态 和 转换 即 可 ， 束 像 《 大 
富 例 》 游 戏 的 发 明 者 伊丽莎白 : 马 吉 (Elizabeth Magie) 最 初 为 《大 富 
伍 》 的 前 喘 《 地 主 游戏 》 创 建 规则 一 样 。 这 不 仅 古 针对 优先 权 估 算 器 
的 ， 人 们 会 为 所 有 的 有 限 状 态 机 编码 规则 。 


富 侈 棋盘 模块 执行 了 大 部 分 你 可 能 会 联想 到 的 与 当 驶 相关 的 人 
类 推理 ， 但 Boss 并 不 需要 智能 台 能 使 用 大 富 侈 棋盘 模块 。 人 类 玩 《 大 
富 公 》 游 戏 ， 可 能 会 仔细 慎重 地 计算 应 该 采取 哪些 行动 。 但 是 大 主公 
棋 一 模块 实际 上 并 不 是 真 的 在 玩 《 大 主人 笃 》 游 戏 ， 它 没有 任何 关于 成 
功 或 胜利 的 概念 ， 所 以 它 没 有 做 出 任何 关于 它 应 该 做 什么 或 下 一 步 该 
去 哪里 的 慎重 的 战略 决策 。 它 更 像 是 《大 证 合 》 游 戏 的 规则 手册 。 在 
每 个 状态 下 ， 大 富 例 棋盘 模块 只 是 遵循 一 组 极其 简单 的 规则 ， 然 后 根 
据 男 一 项 简单 测试 的 结果 转换 到 下 一 个 状态 。Boss 确 实 进行 了 仔细 审 
慎 的 规划 ， 但 这 发 生 在 它 的 路 线 规划 器， 即 我 们 在 几 页 前 看 到 的 用 于 
搜索 路 径 的 模块 中 。 
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图 4.3 负责 十 字 路 口 的 有 限 状 态 机 。 大 富翁 棋盘 模块 按照 上 图 中 从 “开始 "到 "完成 "的 顺序 
执行 。 有 限 状态 机 等 待 优先 权 ， 然 后 Boss 尝 试 进入 十 字 路 口 。 如 果 十 字 路 口 有 一 音 
塞 ，Boss 就 将 其 视 为 一 个 "区 域 " 驶 过 ， 即 将 其 视 为 停车 场 一 样 的 复杂 区 域 ， 而 不 是 车 道 。 有 有 

限 状 态 机 会 创建 一 条 通过 十 字 路 口 的 虚拟 车 道 ， 并 让 Boss 在 这 条 虚拟 车 道上 行驶 


因此 ， 大 富 侈 棋盘 模块 的 职责 是 ， 从 路 线 规划 融 手 中 接 过 任务 ， 
跟 踩 任务 完成 进度 ， 然 后 将 行动 委托 给 下 一 个 层次 一 一 运动 规划 凑 ， 
直到 任务 完成 。 


运动 规划 器 〈 图 4.2 右 下 角 所 示 的 模块 ) 的 职责 是 为 汽车 找到 并 执 
行 一 条 路 径 ， 使 其 从 当前 位 置 安全 地 驶 向 大 富翁 棋 强 指定 的 目标 位 
置 。 例 如 ， 大 主公 棋 副 可 能 会 命令 运动 规划 融 执 行 以 下 操作 之 一 : 

e 规 划 并 执行 一 条 路 径 ， 把 车 停 在 那 边 的 空地 上 《给 运动 规划 器 
指定 一 个 位 置 ) 。 


。 继 续 沿 着 这 条 车 道 直行 。 
。 切 换 到 左 侧 车 道 。 
。 穿 过 这 个 十 字 路 口 。 


一 旦 大 富 傅 棋盘 给 运动 规划 器 下 了 命令 ， 运 动 规划 紫 就 会 找到 一 
条 从 当前 位 置 到 目标 位 置 的 路 径 。 在 这 方面 ， 运 动 规划 器 有 点 像 路 线 
规划 器 ， 只 是 运动 规划 器 的 目标 是 在 更 短 的 时 间 单 位 上 规划 运动 。 路 
线 规划 絮 以 分 钟 和 英里 为 单位 规划 运动 ， 而 运动 规划 器 以 秒 和 英尺 为 
单位 规划 运动 :运动 规划 右 最 大 不 过 在 约 1/3 英 里 的 范围 内 规划 运动 。 


富翁 棋盘 假设 运动 规划 器 会 设法 安全 地 实现 目标 ， 但 是 运动 规 
划 器 可 以 告诉 大 富翁 棋盘 它 失败 了 ， 例 如 ， 直 到 它 试图 停车 时 才 看 到 
停车 位 被 一 辆 摩托 车 占 了 ， 在 这 种 情况 下 ， 大 富翁 棋盘 会 寻找 一 个 应 
aii. G 


路 线 规划 器 和 运动 规划 器 之 间 的 另 一 个 区 别 是 ， 在 搜索 路 径 的 时 
候 ， 路 线 规划 器 只 需要 考虑 汽车 在 地 图 上 的 位 置 ， 而 运动 规划 器 需要 
跟踪 汽车 的 位 置 、 速 度 和 方向 ， 同 时 确保 Boss 不 违反 任何 物理 定律 。 
汽车 只 能 朝 着 车 轮 指向 的 方向 行驶 。 除 非 出 现 问题 ， 否 则 车 轮 不 会 侧 
向 横 移 ， 运 动 规划 器 需要 考虑 到 这 一 点 (机 器 人 专家 将 此 称 为 汽车 的 
运动 学 约束 ) 。 运 动 规划 器 还 确保 汽车 不 会 过 快 地 加 速 、 转 弯 或 售 
车 ， 即 它 不 应 该 猛烈 地 加 速 或 刹车 ， 也 不 应 该 高 速 转 弯 以 致 翻车 。 红 
色 车 队 的 悍马 在 测试 期 间 发 生 过 翻车 ， 这 次 事故 在 第 一 次 无 人 车 挑战 
赛 开赛 前 仅仅 几 周 的 时 候 摧毁 了 它 的 传感器 ， 价 值 25 万 美元 的 电子 产 
品 瞬 间 支 离 破碎 。 亿 后 来 ， 悍 马 的 传感器 再 没 能 复原 ， 这 可 能 也 对 悍 
马 在 那 次 比赛 中 的 表现 有 一些 影响 。 


Boss 的 运动 规划 器 的 寻 路 算法 要 比 它 的 路 线 规划 算法 复杂 一 些 ， 
因为 它 需 要 跟踪 Boss 的 位 置 、 速 度 和 方向 (我 们 可 以 把 这 三 者 统称 
HORA) 。 运 动 规划 器 无 法 在 一 个 简单 的 网 格 中 搜索 路 径 ， 因 为 仅 
赁 网 格 它 无 法 跟踪 所 有 这 些 东 西 。 在 停车 场 ， 运 动 规划 器 寻找 从 当前 
位 置 到 目标 位 置 的 最 佳 路 径 的 方法 ， 是 将 非常 小 的 路 径 片段 连接 成 一 
条 路 线 ， 每 个 路 径 片段 确保 Boss 的 速度 和 位 置 遵循 物理 定律 。 例 如 ， 
如 果 一 个 路 径 片段 的 开头 指示 ，Boss 处 于 当前 位 置 ， 面 朝 前 方 ， 以 每 
秒 5 英尺 的 速度 前 进 ， 没 有 加 速度 ， 那 么 该 路 径 片段 的 未 端 信息 就 需要 
与 开头 一 致 。 它 必须 明确 肯定 ，Boss 位 于 当前 位 置 前 方 5 英尺 处 ， 面 朝 
前 方 ， 以 每 秒 5 英尺 的 速度 前 进 。( 赎 我 在 图 4.4 的 4 张 图 中 展示 了 这 个 过 
程 的 一 个 例子 。 这 种 规划 可 能 需要 时 间 ， 于 是 Boss 使 用 第 二 个 运动 规 
划 器 同时 规划 它 的 后 续 路 径 ， 因 而 无 须 在 运动 中 暂停 。 


为 了 上 路 行驶 ，Boss 的 运动 规划 右 还 使 用 了 一 种 更 像 斯 坦 利 的 转 
回 算 法 的 搜索 算法 。 首 先 ， 它 为 汽车 生成 了 一 组 可 能 的 轨迹 。 轨 迹 从 
汽车 当前 的 位 置 和 速度 开始 ， 在 道路 的 远 处 结束 ， 但 在 横 同 俩 移 和 要 
曲 弧度 方面 有 所 变化 。 然 后 运动 规划 絮 根 据 这 些 路 径 的 平 渭 度 、 它 们 
与 道路 中 央 的 距离 以 及 它们 与 障碍 物 的 距离 等 因素 对 这 些 路 径 进 行 评 
分 。( 央 随后 ，Boss 持 续 运行 这 个 运动 规划 器 ， 不 断 地 通过 它 的 当前 状 
仿 寻 找 最 住 路 人 径 。 这 意味 着 它 会 不 断 地 调整 路 径 ， 适 当地 纠正 出 现 的 
小 误差 。 


(a) 大 富翁 棋盘 指示 自动 驾驶 汽车 的 运动 规划 器 把 车 停 在 指定 的 停车 位 上 。 


(b) 汽车 有 一 个 用 网 格 表示 的 内 部 地 图 ， 障 碍 物 会 填充 网 格 中 的 单元 格 。 运 动 规划 器 在 选择 路 径 
时 也 使 用 了 成 本 国 数 。 成 本 国 数 体现 了 单元 格 与 障碍 物 ( 在 本 例 中 障碍 物 是 其 他 车 辆 ) 之 间 
的 距离 。 
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(c) 运动 规划 器 搜索 一 条 通 往 目 标的 路 径 。 路 径 包 含 许多 编码 了 速度 、 位 置 和 方向 的 小 路 径 片 
段 。 与 此 图 不 同 的 是 ， 搜 索 过 程 是 从 完成 状态 执行 到 开始 状态 。 
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(d) 通 向 目标 的 候选 路 径 。 


图 4.4 
1. Urmson et al.,“Tartan Racing.” 
2. 大 富翁 棋盘 模块 的 正式 名 称 是 “行为 执行 模块 ”。 
3 Urmson et al.,“Tartan Racing." 
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攻克 交通 堵塞 


图 4.2 右 侧 板块 中 的 三 个 高 层次 推理 模块 一 一 路 线 规划 如 、 大 宦 例 
棋盘 以 及 运动 规划 舌 ， 让 Boss 能 够 在 比赛 当天 行驶 在 老 军 事 基地 中 。 
然而 ， 当 Boss 在 比赛 中 开始 出 现 * 幻 觉 ? 时 ， 到 目前 为 止 我 所 描述 的 系 
统 都 无 法 拯救 它 。 


在 预选 赛 中 ，Boss 已 经 证 明了 它 是 准备 最 充分 的 选手 之 一 。 但 是 
在 城市 挑战 赛 中 ， 当 在 路 上 疾驰 以 完成 其 中 一 项 任务 时 ， 它 发 现 前 面 
的 车 道 被 另 一 辆 车 挡住 了 。Boss 放 慢 速 度 ， 停 了 下 来 ， 等 待 着 。 它 做 
了 几 次 前 进 的 尝试 ， 但 无 法 通过 : 道路 完全 被 挡住 了 。( 时 于 是 Boss 等 
待 着 ， 比 赛 计时 器 上 的 时 间 一 秒 一 秒 地 过 去 。 


问题 是 ， 交 通 堵塞 并 不 存在 。Boss 面 前 空空 如 也 ， 它 所 认为 的 车 
道 被 挡住 只 是 “幻觉 *。 这 并 不 是 Boss 第 一 次 在 比赛 当天 出 现 “ 幻 觉 ”。 


Boss 的 “幻觉 ?是 由 和 它 的 感知 算法 中 的 一 个 问题 引起 的 。 如 宁 它 看 
到 前 面 有 一 辆 车 ， 随 后 那 辆 车 开 走 了 ， 此 时 它 并 不 总 是 清楚 它 对 那 辆 
车 位 置 的 估算 是 否 正 确 ， 所 以 它 偶尔 会 认为 那里 还 有 东西 。 改 进 感 知 
算法 可 以 避免 这 种 “4] 觉 *， 克 里 斯 和 他 的 团队 在 构建 复 洒 软件 方面 经 
验 丰 富 ， 他 们 知道 所 有 软件 都 存在 缺陷 。 笠 运 的 是 ， 他 们 有 移 见 之 
明 ， 让 Boss 能 应 对 这 样 的 问题 。 


Boss 遇 到 的 问题 与 悍马 在 第 一 次 无 人 芋 挑 战 赛 遇 到 的 问题 类 似 ， 
当时 悍马 被 困 在 了 一 块 宕 石 后 面 。 克 里 斯 的 团队 在 第 二 次 无 人 车 挑战 
赛 中 解决 了 这 个 问题 ， 他 们 为 悍马 编写 程序 ， 让 它 在 被 困 住 时 后 退 10 
米 ， 清 除 它 对 障碍 的 估算， 然后 再 试 一 次 。 但 这 只 是 应 急 之 策 ， 一 种 


脆弱 的 解决 方案 ， 一 种 权宜 之 计 ， 并 不 是 很 有 效 ， 而 且 在 拥挤 的 十 字 
路 口 可 能 根本 行 不 通 。 克 里 斯 的 团队 需要 一 个 能 够 弥补 缺陷 或 处 理 意 
外 情况 的 系统 ， 一 个 永 不 放弃 的 系统 。 通 过 在 大 富 例 棋 盘 模 块 增 加 一 
个 更 通用 的 错误 恢复 系统 ， 他 们 在 Boss 中 实现 了 这 一 想法 。 这 个 系统 
B= SRR, Le ARAB SICH e-bay PESEA (Isaac Asimov) 的 机 
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e 在 问题 得 到 解决 之 前 ， 汽 车 应 该 愿意 承担 越 来 越 大 的 风险 ， 并 
且 不 应 该 重复 它 的 复位 符 试 。 


e 复 位 行为 应 适合 要 驶 环境 。 例 如 ，Boss 在 行车 道上 的 复位 行为 应 
该 不 同 于 在 俘 车 场 的 复位 行为 。 


e 错 误 恢 复 应 尽 可 能 和 疹 单 ， 以 减少 引入 更 多 软件 缺陷 或 不 民 行 为 
的 可 能 性 。 


作为 最 后 的 努力 ， 如 果 Boss 在 5 分 钟 内 移动 不 超过 一 米 ， 它 的 错误 
恢复 系统 就 会 利用 一 个 叫 作 “摆动 ” (wiggle) 的 算法 随机 选择 一 个 附 
近 的 目标 位 置 。 这 个 想法 认为 Boss 应 该 能 够 自行 摆脱 它 所 遇 到 的 一 切 
困境 ， 然 后 清除 记忆 并 再 试 一 次 - © 


当 Boss 在 城市 挑战 赛 中 面 对 想象 中 被 挡住 的 车 道 时 ， 它 就 会 开始 
五 级 错误 恢复 。 第 一 ， 它 会 试图 到 达 一 个 略微 越过 交通 堵塞 处 的 位 
置 ， 第 二 ， 它 会 试图 到 达 一 个 越过 交通 堵塞 处 稍 远 些 的 位 置 ， 第 三 ， 
它 会 试图 到 达 一 个 远 远 越过 交通 堵塞 处 的 位 置 ， 第 四 ， 它 会 后 退 ， 并 
试图 再 次 到 达 一 个 越过 交通 堵塞 处 的 位 置 ， 第 五 ， 它 会 假设 前 面 的 路 
被 完全 堵 住 ， 然 后 掉头 。 当 它 假设 道路 完全 被 堵 住 时 ， 它 实际 上 是 在 
感知 和 环境 建 模 层 的 路 线 图 中 把 这 条 路 标记 为 无 法 通行 ， 从 而 让 路 线 
规划 器 寻找 另 一 条 路 。 人 时 ) 


在 比赛 中 ，Boss 出 现 了 两 次 “幻觉 "， 结 果 那 天 多 开 了 两 英里 ， 对 
一 场 耗 时 约 4 小 时 的 比赛 来 说 ， 这 只 是 小 麻烦 。 虽 然 遇 到 了 些小 麻烦 ， 
但 Boss 还 是 领先 斯 坦 福 车 队 的 赛车 19 分 钟 完 赛 。( 电 一 个 宛 余 的 错误 恢 

复 系统 是 Boss 的 架构 中 最 重要 的 部 分 之 一 ， 其 中 更 高 层次 的 规划 可 以 
解决 低层 次 规划 或 感知 方面 的 问题 ， 这 让 克 里 斯 和 他 的 团队 赢得 了 期 
待 已 久 的 大 奖 。 
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三 层 架 构 


是 什么 让 Boss 和 人 第 三 章 中 的 斯 坦 利 能 够 如 此 出 色 地 工作 ? 正如 我 
们 所 见 ， 这 与 它们 的 推理 架构 有 很 大 关系 。Boss 和 斯 坦 利 的 一 个 关键 
设计 原则 是 将 染 构 组 织 成 硬件 层 、 感 知 和 环境 建 模 层 、 规 划 和 推理 
层 ， 即 图 4.2 中 从 左 到 右 的 三 层 。 正 如 我 们 所 见 ， 感 知 和 环境 建 模 层 使 
图 4.2 右 侧 的 规划 和 推理 层 能 够 专注 于 更 高 级 别 的 任务 。 规 划 和 推理 层 
没有 承担 处 理 低层 次 传 感 占 数据 的 任务 ， 因 为 这 是 感知 模块 的 任务 。 
KIR, 感知 模块 主要 是 通过 机 器 学 习 模 型 实现 的 ， 这 些 模 型 将 原始 
的 传 感 右 数据 转化 为 可 操作 的 信息 ， 但 它们 并 不 关注 任何 高 层次 的 规 
划 或 决策 。 正 如 我 们 在 上 一 章 看 到 的 ， 每 个 感知 模块 都 有 一 项 工作 要 
做 ， 这 意味 着 每 个 模块 都 可 以 快速 完成 各 目的 工作 。 


但 Boss 还 展示 了 目 动 敬 驶 汽车 的 其 他 一 些 更 重要 的 特点 ， 它 能 够 
执行 复杂 的 行为 ， 比 如 在 城市 环境 中 行驶 数 贡 里， 把 车 停 到 停车 位 以 
及 与 其 他 正在 行驶 的 汽车 交互 ， 同 时 它 还 能 从 容 地 应 对 意外 情况 。 


谷歌 的 母 公司 Alphabet (字母 表 ) 的 一 辆 上 自动 驾驶 汽车 在 加 利 福 
尼 亚 州 山 景 城 附 近 行 驶 时 遇 到 了 一 个 相当 奇怪 的 情况 。 克 里 斯 : 厄 姆 森 
在 2015 年 TED (科技 、 娱 乐 、 设 计 ) 大 会 演讲 中 描述 了 这 一 场景 ， 他 
指 着 一 段 现场 视频 说 : 


一 位 坐 在 电动 轮椅 上 的 妇女 在 路 上 追赶 一 只 兜 圈子 的 鸭子 。 事 实 
证 明 ， 在 车 辆 管理 局 的 驾驶 手册 中 ， 没 有 任何 一 处 告诉 你 应 该 如 何 处 
理 这 种 情况 。 但 是 我 们 的 车 辆 能 够 处 理 这 种 情况 ， 减 速 并 安全 行驶 。 
o 
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的 妇女 那样 罕见 ， 那 么 目 动 芍 驶 汽车 可 能 吏 不 会 有 问题 了 。 但 总 体 来 
看 ， 这 些 奇怪 的 意外 情况 的 祸根 是 ， 它 们 经 第 发 生 ， 而 且 总 是 有 点 不 
同 。 它 们 可 能 是 由 施工 区 域 的 标志 缺失 ， 雪 山路 上 的 链条 设施 挡住 了 
道路 ， 甚 至 警察 芒 寻 十 字 路 口 的 车 流 造成 的 。 每 一 种 情况 都 有 目 己 的 
独特 之 处 ， 目 动 区 狐 汽 车 必须 能 够 处 理 所 有 这 些 意外 情况 。 那 么 ， 是 
什么 让 Boss 能 够 处 理 这 些 情况 的 呢 ? 


我 们 可 以 通过 研究 元 里 斯 团队 在 设计 Boss 时 做 出 的 第 二 个 重要 决 
策 来 回答 这 个 问题 ， 将 更 高 层次 的 规划 和 推理 层 组 织 成 抽象 水 平 不 断 
增强 的 三 个 层次 ， 如 图 4.2 最 右边 的 板块 中 所 示 的 三 个 模块 。 在 机 絮 人 
领域 ， 这 种 组 织 智能 体 (agent) 的 方式 有 了 时 被 称 为 “三 层 染 构 ”， 它 让 
斯 坦 利 和 Boss 这 样 的 目 动 芝 驶 汽车 能 够 在 实时 环境 中 快速 做 出 反应 。 
需要 强调 的 是 ， 当 我 所 到 三 层 架 构 时 ， 我 指 的 古 图 4.2 右 侧 的 三 个 模 
块 ， 而 不 是 Boss 大 脑 从 左 到 右 的 三 层 组 织 。 


三 层 架构 的 顶层 染 构 叫 作 审议 器 ， 它 执行 审议 行为 ， 这 通常 涉及 
绥 慢 仔细 的 规划 。 以 Boss 为 例 ， 这 个 缓慢 的 、 深 思 熟 虑 的 步 又 正 是 由 
它 的 路 线 规划 万 完成 的 ， 这 束 是 Boss 规 划 最 高 层次 目标 的 地 方 。 路 线 
规划 右 在 城市 环境 中 寻找 路 径 ， 或 许 这 束 是 它 最 “智能 ”的 行为 。 制 定 
这 些 目标 是 可 能 的 ， 因 为 路 线 规划 器 不 需要 担心 感知 (感知 模块 负责 
处 理 ) ， 也 不 需要 担心 突 发 的 意外 事件 《大 富翁 棋 到 负责 处 理 ) o 
线 规划 万 只 需要 规划 任务 和 路 径 。 
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上 包含 了 它 的 运动 规划 器 以 及 转向 和 速度 控制 器 。( 思 这 一 层 执行 相对 
低级 的 操作 ， 比 如 * 停 在 那 边 的 那个 位 置 ”。 运 动 规划 画 与 执行 名 相关 
联 ， 执 行 右 直接 控制 方向 盘 、 刹 车 和 油门 。 这 一 层 还 包括 我 们 在 第 一 
章 中 看 到 的 三 规则 控制 右 。 传 统 上 ， 控 制 郝 不 会 做 任何 非常 智能 的 事 
情 ， 它 的 目的 是 执行 简单 的 操作 并 对 简单 的 传 感 夯 读 数 做 出 反应 。 它 


对 环境 的 一 个 典型 反应 可 能 是 增加 发 动机 扭矩 或 刹车 ， 让 汽车 的 速度 
达到 目标 速度 。 


在 审议 器 和 控制 如 之 间 的 古 定 序 器 。 定 序 紫 的 目标 古 通 过 给 控制 
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列 ， 因 为 在 执行 整个 序列 之 前 ， 环 境 的 状态 可 能 会 改变 。 如 采 一 个 机 
郁 人 无 法 对 不 断 变化 的 环境 做 出 反应 ， 那 么 它 会 出 现 什么 问题 呢 ? 请 
想象 ， 我 设计 了 一 个 机 器 人 管家 给 你 倒 酒 。 这 个 机 右 人 可 能 会 从 厨房 
里 拿 出 一 瓶 酒 ， 来 到 你 身边 ， 伸 出 机 械 手 拿 起 酒 瓶 给 你 倒 亩 。 你 可 能 
会 帮忙 把 你 的 酒杯 从 昌 子 上 举 到 机 器 人 面前 ， 让 它 更 容易 倒 。 机 侣 人 
管家 却 一 直 计 划 把 酒 直 接 倒 进 桌 子 上 的 酒杯 里 ， 于 是 便 名 上 略 了 你 的 手 
势 ， 直 接 把 一 杯 酒 倒 在 了 果子 上 。 


这 样 的 机 器 人 管家 是 不 可 接受 的 ， 更 不 用 说 这 样 的 自动 驾驶 汽车 
了 。 实 时 人 工 智能 系统 需要 对 环境 的 变化 做 出 反应 。 对 Boss 而 言 ， 有 
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哪些 操作 的 。 如 果 在 控制 器 执行 其 任务 之 前 环境 发 生 了 变化 ， 那 么 定 
序 器 就 可 以 提出 应 急 计划 并 向 控制 器 发 送 更 新 的 指令 。 


埃 伦 :加 特征 加 州 理 工大 学 喷气 推进 实验 室 的 一 名 全 究 员 ， 他 和 其 
他 几 个 研究 团队 在 设计 机 絮 人 时 ， 同 时 发 现 了 这 种 三 层 架 构 一 一 审议 
胡 、 定 序 器 和 控制 融 。 基 于 他 们 的 共同 人 研究， 他 总 结 了 定 序 絮 的 作 
用 : 


定 序 句 的 基本 设计 原则 是 一 个 叫 “ 认 知 失 效 ” 的 概念 。 认 知 失 效 是 
系统 可 以 以 某 种 方式 检测 到 的 失效 。 我 们 并 不 是 在 设计 永远 不 失效 的 
算法 ， 而 是 使 用 ULF) 永远 都 能 成 功 检 测 出 失效 的 算法 。 人 中 

为 什么 要 费心 设计 有 时 会 失效 的 算法 ， 而 不 是 设计 永 不 失效 的 算 
TAYE? 


首先 ， 设 计 会 出 现 认 知 失效 的 导航 算法 ， 要 比 设计 永 不 失效 的 导 
航 算法 容易 得 多 。 其 次 ， 如 果 检 测 到 失效 ， 算 法 就 可 以 采取 纠正 措 
施 ， 从 失效 中 恢复 。 因 此 ， 如 果 算 法 的 失效 属于 认 知 失效 ， 那 么 高 失 
效率 的 算法 就 可 以 组 合成 一 个 整体 失效 率 很 低 的 算法 。 伺 


三 层 染 构 现 在 看 起 来 似乎 很 明显 ， 但 起 初 它 并 不 那么 显而易见 。 
为 了 理解 其 中 的 原因 ， 我 们 有 必要 了 解 一 下 三 层 架 构 之 前 的 一 些 版 
本 。 正 如 埃 伦 :加 特 回 忆 的 那样 ， 这 样 的 架构 之 一 是 感知 一 计划 一 动作 
架构 (Sense-Plan-Act, SPA) ， 它 在 1985 年 之 前 一 直 被 广泛 应 用 于 机 
器 人 中 。( 回 这 种 架构 名 副 其 实 ， 机 器 人 感知 周围 的 环境 ， 计 划 下 一 
步 ， 并 执行 这 一 步 。 信 息 在 一 个 方向 上 流动 ， 从 传 感 锅 到 规划 髓 再 到 
控制 磺 。 当 然 ， 这 种 架构 的 缺点 在 于 它 没 有 反馈 。 如 果 你 的 机 妖 人 管 
家 采用 的 是 感知 一 计划 一 动作 架构 ， 那 么 我 建议 你 只 让 它 给 你 倒 清 
水 。 


埃 伦 :加 特 发 现 ， 感 知 一 计划 一 动作 染 构 之 后 是 各 类 包容 式 架 构 
(subsumption architecture) 。 它 们 看 起 来 像 是 感知 一 计划 一 动作 架 
构 ， 信 息 从 传 感 釉 流 癌 规划 需 再 到 控制 着， 但 它们 的 不 同 之 处 在 于 ， 
其 模块 可 以 通过 “ 柳 瘟 ? 较 低 层次 的 动作 对 环境 做 出 反应 。 采 用 包容 式 
扣 构 设计 的 机 器 人 可 以 在 实验 室 里 快速 穿梭 ， 比 采用 感知 一 计划 一 动 
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非常 复杂 。 层 次 之 间 的 连接 变 得 混乱 ， 模 块 之 间 以 不 可 预知 的 方式 区 
互 ， 对 底层 的 小 改动 可 能 需要 重新 设计 整个 系统 才能 实现 。 这 些 系统 
的 设计 变 成 一 团 乱 麻 。 另 一 方面 ， 三 层 架 构 既 让 机 器 人 能 够 快速 做 出 
反应 ， 又 在 以 构 的 不 同 部 分 之 间 提 供 了 清晰 的 分 离 ， 因 此 我 们 仍然 可 
以 理解 它 。 


作为 控制 器 的 一 部 分 ，Boss 的 运动 规划 恬 相当 复 杂 ， 它 本 和 映 几乎 
束 拥 有 一 个 三 层 架 构 ， 但 没有 定 序 器 。 这 种 复 洒 性 还 上 暗示 了 男 一 种 可 
能 性 : 如果 我 们 骨 套 三 层 染 构 ， 让 其 中 一 个 充当 另 一 个 的 控制 侨 呢 ? 


fie Hie np ARERR, ART EA A BR SS CER ^ TE 
ALU ie, HERR RES RAO, EE ea P 
MEMA ON Be EC ABE Re, DU EIR CHUA o dr 
的 定 序 器 可 能 会 对 事故 和 其 他 突 发 事件 做 出 反应 。 


被 城市 视 为 控制 右 的 目 动 营 驶 汽车 本 里 可 以 采用 三 层 积 构 来 实 
Bh, 根据 城市 的 定 序 占 强 加 的 约束 以 及 它们 目 己 的 目标 ， 目 动 敬 驶 汽 
车 会 相应 地 规划 各 目的 任务 。 


1. Chris Urmson,“How  aDriverless Car Sees the  Road,"TED2015Talk,accessed 
December29,2017,https://www.ted.com/talks/chris_urmson_how_a_driverless_car_sees_the_r 
oad/transcript?language=en#t-684924. 
运动 规划 器 也 可 以 被 认为 是 定 序 器 的 一 部 分 。 我 选择 将 它 与 控制 器 放 在 一 起 ， 并 将 
运动 规划 器 解释 为 一 种 复杂 的 控制 器 ， 它 本 身 几 乎 就 是 一 个 三 层 架 构 。 
3. Erann Gat,“Integrating Planning and Reacting in aHeterogeneous Asynchronous 
Architecture for Controlling Real-World Mobile Robots,"Proceedings of the10th National 
Conference on Artificial Intelligence, June12—16,1992,809-815. 
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4. Erann Gat,“Integrating Planning and Reacting in aHeterogeneous Asynchronous 
Architecture for Controlling Real-World Mobile Robots,"Proceedings of the10th National 
Conference on Artificial Intelligence, June12—16,1992,809-815. 


5. Gat," Three-Layer Architectures." 


6. Gat," Three-Layer Architectures." 
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执行 感知 的 算法 与 执行 高 级 规划 的 算法 宴 清 在 了 一 起 。 这 在 一 定 程度 
上 可 能 是 因为 Alphabet 公 司 的 目 动 驾驶 汽车 已 经 上 路 行驶 ， 并 在 新 闻 
报道 机 器 学 习 的 其 他 重大 突破 (许多 突破 也 来 自 Alphabet 旗 下 的 公 
司 ， 比 如 谷歌 ) 时 引起 了 媒体 的 关注 。 虽 然 智 能 的 机 器 学 习 算法 可 以 
存在 于 目 动 芝 驶 汽车 的 规划 层 顶 层 ， 但 是 大 部 分 高 级 推理 层 都 源 于 已 
经 在 人 工 和 六 能 领域 存在 了 数 十 年 的 思想 ， 例 如 搜索 算法 和 有 限 状态 
机 ， 它 们 通常 不 被 认为 是 机 器 学 习 ( 记 住 ， 机 器 学 习 主 要 是 使 用 数据 
教导 机 器 ， 而 人 工 智 能 不 一 定 需要 数据 ) HR. BEES +e 
用 的 机 器 学 习 大 部 分 都 位 于 它们 的 感知 和 环境 建 模 层 中 。 


目 动 敬 驶 汽车 重要 的 感知 任务 之 一 是 对 传感器 看 到 的 物体 进行 分 
类 。Boss 并 没有 试图 将 看 到 的 物体 划分 为 精细 的 类 别 ， 它 所 在 的 城市 
环境 是 人 造 的 ， 因 此 环境 中 唯一 的 移动 物体 是 汽车 。 而 在 野外 ， 目 动 
当 驶 汽车 会 遇 到 许多 不 同类 型 的 物体 ， 因 此 它 必 须 将 这 些 物体 分 为 不 
同 的 类 别 ， 才 能 做 出 适当 的 反应 。 通 过 了 解 物 体 是 汽车 、 目 行车 、 行 
人 ， 还 是 坐 在 电动 轮椅 上 追赶 鸭子 的 妇女 ， 汽 车 可 以 更 好 地 对 其 进行 
建 模 并 预测 路 径 。 


目 动 车 驶 汽车 如 何 对 它 的 传 感 右 看 到 的 物体 进行 分 类 ? 有 一 类 机 
妖 贫 觉 算 法 在 2012 年 前 后 出 现 了 显著 的 进步 。 这 类 算法 来 目 一 个 叫 深 
度 学 习 的 领域 ， 它 可 以 使 计算 机 像 人 类 一 样 精确 地 对 照片 内 容 进行 分 
类 。 在 接 下 来 的 几 年 里 ， 这 些 算法 迅速 发 展 ， 最 终 ， 英 伟 达 等 公司 开 
发 出 了 用 于 目 动 要 驶 汽车 视觉 系统 的 定制 硬件 。 在 本 书后 面 的 章节 ， 
我 们 将 更 深入 地 人 研究 这 些 算法 的 工作 原理 。 


AMS RAS: 复杂 的 系统 


对 建造 一 辆 自动 驾驶 汽车 而 言 ， 还 有 很 多 我 们 未 涉及 的 主题 。 下 
面 就 让 我 们 简要 了 解 一 下 其 中 的 一 小 部 分 。 


在 众多 事项 中 ， 开 发 团队 必须 为 目 动 雪 驶 汽车 编写 大 量 的 软件 。 
编写 这 种 软件 需要 大 量 的 人 力 投 入 。 以 往 获奖 团队 的 规模 都 很 大 ， 有 
40~60 人 ， 其 中 包括 研究 人 员 、 工 程 师 和 大 学 生 。 这 种 大 规模 的 工作 需 
要 仔细 管理 人 们 和 各 方 之 间 的 合作 ， 以 确保 页 献 者 心情 愉快 且 训 有 成 
效 。 但 是 ， 即 使 快乐 高 效 的 员工 也 会 写 出 有 缺陷 的 代码 。 


正如 我 们 所 见 ， 处 理 软件 缺陷 的 一 种 方法 是 使 用 适当 的 错误 恢复 
系统 。 无 人 车 挑战 赛 中 的 成 功 团 队 也 投入 了 大 量 精力 进行 此 类 测试 和 
模拟 。《 连 线 》 杂 志 的 一 位 记者 看 到 克 里 斯 : 厄 姆 森 展 示 了 一 个 很 
像 “ 硅 谷 特 龙山 区 景观 ”的 可 视 化 效果 。 它 详细 到 足以 模拟 目 动 敬 驶 汽 
车 如 何 应 付 道路 ， 其 至 能 模拟 它 的 轮胎 震动 。 时 特别 是 在 后 来 的 几 年 
里 ， 这 些 团队 开发 了 模拟 环境 ， 这 让 他 们 可 以 重 放 过 去 的 雪 驶 记录 ， 
以 便 改 进 学 习 算法 ， 提 高 处 理 异常 状况 的 能 力 。( 人 过 ) 仅 这 个 主题 就 足以 
写 一 本 书 ， 但 我 们 还 有 其 他 主题 要 探讨 。 


1. Douglas McGray, “The Great Robot Race,” Wired,March1,2004,accessed 
October16,2016,https://www.wired.com/2004/03/robot-3. 
2. Urmson et al.,“Autonomous Driving in Urban Environments”;Sebastian Thrun et 


al,"Stanley:I The Robot That Won the DARPA Grand Challenge,"Journal of Field 
Robotics23,no.9(2006):661—692. 
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20 世 纪 90 年 代 ， 自 动 驾驶 汽车 在 经 历 了 近 10 年 的 寒冬 之 后 ， 
DARPA 无 人 车 挑战 赛 重新 点 燃 了 这 个 领域 。 虽 然 自 动 驾驶 汽车 在 这 些 
比赛 中 取得 了 进步 ， 但 由 于 技术 和 法 律 方面 的 挑战 ， 这 些 汽车 要 在 没 
有 人 类 驾驶 员 的 情况 下 在 公共 道路 上 行驶 还 需要 很 多 年 。( 电 在 城市 挑 
战 赛 举办 10 年 之 后 ， 处 理 意外 情况 的 能 力 仍然 是 这 些 汽车 面临 的 最 大 
问题 之 一 。 截 至 2017 年 ， 优 步 (Uber) 仍 在 努力 解决 这 个 问题 。 他 们 
用 于 实验 的 自动 思 驶 汽车 始终 需要 人 类 驾驶 员 在 车 内 ， 汽 车 平均 只 能 
行驶 0.8 英 里 就 需要 人 类 驾驶 员 干预 。( 洁 )Alphabet 公 司 旗下 的 自动 驾驶 
汽车 公司 韦 莫 (Waymo) 的 产品 在 路 上 行驶 的 里 程 远 远 超过 优 步 ， 它 
当时 每 行驶 1000 英 里 只 有 0.2 英 里 需要 人 类 驾驶 员 干 预 。 里 除 此 之 外 ， 
这 些 汽车 背后 的 团队 必须 建立 并 维护 高 度 详细 的 地 图 。 


在 比赛 结束 后 的 几 年 里 ，DARPA 无 人 车 挑战 赛 的 许多 竞争 对 手 最 
终 开 始 合作 制造 自动 驾驶 汽车 。Alphabet 公 司 旗下 自动 驾驶 汽车 项 目 
的 负责 人 塞 巴 斯 蒂 安 . 特 龙 最 终 聘请 了 克 里 斯 - 厄 姆 森 、 自 动 驾驶 摩托 车 
的 创造 者 安德鲁 .有 薪 万 多 夫 斯 基 (Andrew Levandowski) 以 及 该 领域 的 
其 他 佼佼 者 。 克 里 斯 本 人 最 终 在 2013 年 成 为 Alphabet 公 司 自 动 鸭 驶 汽 
车 项 目 负责 人 。 舍 这 个 项 目 或 许 是 因为 2004 年 DARPA 精 心 组 织 的 挑战 
赛 而 启动 的 ， 到 克 里 斯 2016 年 离开 时 ， 其 自动 驾驶 汽车 已 经 在 路 上 行 
驶 了 超过 120 万 英里 » (9) 


1. Joshua Davis,“Say Hello to 
Stanley,” Wired, January1,2006,accessedOctober30,2016,https://www.wired.com/2006/01/stanl 
ey. 


2. Taylor Hatmaker,“Leaked Internal Uber Documents Show Rocky SelfDriving Car 
Progress,” TechCrunch,March17,2017. 


3. Johana Bhuiyan,“Self-Driving Cars Are Mostly Getting Better at Navigating California's 
Public Roads,”Recode,February2,2017. 


4. Timothy B.Lee,“Why Google and Car Companies Are About to Spend Billions Mapping 
American Roads,” Vox,September29,2008. 


5. Heather Kelly,“Google Loses Lead  Self-Driving Car Engineer Chris 
Urmson,” CNN, August5,2016. 


6. Chris Urmson,The View from the Front Seat of the Google Self-Driving Car:A New 
Chapter,” August5,2016,accessed June16,2017,https://medium.com/@chris_urmson/the-view- 
from-the-front-seat-of-the-google-self-drivingcar-a-new-chapter-7060e89cb65f#.9kwb5jsdr. 


年 。 
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5 网 飞 和 推荐 引擎 的 挑战 


那些 研究 如 何 预测 建 模 的 人 们 会 关注 网 飞 奖 (Netflix Prize) 很 多 


克 里 斯 : 沃 林 斯 基 (Chris Volinsky) 
AT&T (美国 电话 电报 公司 ) 实验 室 资 深 科学 家 


KD 


“贝尔 科 ”(BellKor) 团队 成 员 


Steve Lohr,“Netflix Competitors Learn the Power of Teamwork,"New York 
Times, July27,2009. 


百 万 美元 大 奖 


2006 年 ， 当 机 器 人 团队 正 忙 于 为 来 年 的 DARPA 城 市 挑战 赛 准 备 赛 
车 时 ， 网 飞 回 新 兴 的 数据 科学 界 公 布 了 他 们 目 己 的 大 奖 。 他 们 而 望 寻 
找 可 以 创建 电影 推荐 引擎 的 团队 ， 愿 意 奖 励 最 优秀 的 团队 100 万 美元 奖 


d o 


当 网 飞 发 布 公告 时 ， 他 们 的 流 媒 体 视频 业务 还 不 存在 ， 公 司 的 业 
务 是 提供 DVD (数字 通用 光盘 ) 租赁 服务 。( 岂 用 户 可 以 向 网 飞 索 取 
DVD， 网 飞 会 把 DVD 邮寄 给 他 们 。 但 消费 者 需要 放弃 一 张 当前 持 有 的 
DVD 才能 收 到 下 一 张 ， 而 且 新 DVD 可 能 需要 几 天 才能 收 到 。 粳 糕 的 选 
择 可 能 会 让 人 错过 观 影 的 黄金 时 间 ， 因 此 用 户 往往 谨慎 地 提出 他 们 的 
索取 请 求 。 这 就 是 网 飞 想 要 电影 推荐 引擎 的 原因 。 


作为 服务 的 一 部 分 ， 网 飞 允 许 他 们 的 用 户 使 用 1 星 (最 差 ) 到 5 星 
(最 佳 ) 的 整数 等 级 对 电影 进行 评分 。 网 飞 希 望 利 用 这 些 评分 帮助 用 
户 决 定 他 们 应 该 租 哪 部 电影 。 宣 布 比 赛 后， 网 飞 回 研究 团体 公布 了 一 
个 数据 集 ， 其 中 包含 了 他 们 在 1998 一 2005 年 搜集 的 1 亿 个 星 级 评分 。 
Qa Fs 比 网 飞 自己 的 算法 推荐 效率 高 10% 的 算法 团队 将 获得 
大 奖 。 


这 个 数据 集 对 全 职 的 和 业余 的 数据 科学 家 而 言 是 天 赐 之 物 ， 他 们 
兴致 勃勃 地 着 手 解决 这 个 问题 。 叶 在 第 一 周 中 ， 一 些 团队 就 以 1% 的 优 
势 击败 了 网 飞 自己 的 推荐 引擎 。( 汪 在 第 一 年 内 ， 有 20000 支 队伍 报名 
参赛 ， 其 中 有 约 2000 支 队伍 提交 了 参赛 作品 。 乌 


1. ”在 网 飞 宣布 网 飞 奖 一 年 后 ， 公 司 的 流 媒体 服务 启动 了 ， 这 改变 了 他 们 对 奖项 的 计 


2. 


6. 


为 了 保护 用 户 的 吴 份 ， 这 些 评分 是 匿名 的 ， 但 是 这 在 后 来 的 比赛 中 引起 了 争议 。 请 
JU Andreas Tóscher, Michael Jahrer,and Robert M.Bell,“The BigChaos Solution to the Netflix 
Grand Prize,"Technical Report, Commendo Research&Consulting(for Tóscher and Jahrer)and 
AT&T Labs(for Bell),2009,accessed 
December 10,2017,https://www.netflixprize.com/assets/GrandPrize2009_BPC_BigChaos.pdf. 


官方 称 ， 规 则 规定 ， 一 旦 某 个 团队 把 网 飞 算法 的 推荐 效率 提高 了 10%， 网 飞 束 会 发 
出 “最 后 通 肛 ”。 在 “最 后 通 腻 ”发 出 后 的 30 天 内 提交 的 最 佳作 品 将 赢得 奖项 ， 如 果 出 现 平 


局 则 按照 提交 日 期 的 先后 排名 。 
当时 , “数据 科学 家 "一 词 还 没有 被 广泛 使 用 。 
是 协同 过 滤 推 荐 系统 ) 。 


Mung Chiang and Christopher Brinton,“Movie Recommendation on Netflix”(lecture 


词 


from Networks Illustrated:Principles without Calculus),Coursera, Princeton 


University,accessed March2,2017,https://www.coursera.org/learn/networks- 


illustrated/lecture/Mx4ze/netflix-prize-the-competition. 


James Bennett and Stan Lanning,“The Netflix Prize,"Proceedings of the KDD Cup and 
Workshop,San Jose, CA, August12,2007. 
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势 地 位 。 这 个 团队 束 是 “贝尔 科 ”， 它 由 AT&T 实 验 室 的 三 位 研究 科学 家 
(其 中 一 位 在 竞赛 过 程 中 跳槽 到 了 雅虎 ) 组 成 ， 他 们 在 网 络 和 推荐 系 
统领 域 的 专业 知识 使 他 们 具备 了 研究 这 个 项 目的 优秀 技能 。 人 党) 另 一 个 
队 “ML@UToronto” 由 来 目 多 伦 多 大 学 的 一 群 著 名 的 神经 网 络 研 究 人 
员 组 成 。( 央 成 员 包括 一 位 被 广泛 认为 是 神经 网 络 之 父 的 杰 弗 里 . 辛 屯 
(Geoffrey Hinton) 。 


PPAR ATS Ee BTA PEE i o EB SE BSS EIB 
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的 学 生 和 他 们 的 一 名 数学 专业 的 室友 。 这 两 名 计算 机 科学 专业 的 学 生 
很 快 束 开始 攻读 顶尖 的 博士 课程 ， 学 习 机 器 学 习 领 域 的 知识 ， 虽 然 其 
中 一 名 学 生 将 会 留 在 普林斯顿 大 学 心理 学 系 工作 一 年 。 那 名 数学 专业 
的 学 生 当 时 正 准 备 去 摩根 大 通 从 事 利率 衍生 品 交 易 工作 。 这 个 超出 预 
期 的 青年 三 人 组 以 他 们 的 数据 集中 列 出 的 第 一 部 电影 《 念 龙 星球 》 命 
名 他 们 的 团队 。 人 局 从 精神 上 讲 ， 他 们 和 几 名 匈牙利 研究 生 很 类 似 ， 后 
者 把 他 们 的 团队 命名 为 “地 心 引力 ”。 


比赛 中 甚至 还 有 一 些 资历 更 浅 的 选手 。 最 终 ， 一 个 名 为 “实用 主义 
理论 ”的 二 人 团队 出 现 了 。 这 个 法 毅 加 拿 大 二 人 组 一 直 用 业余 时 间 做 这 
个 项 目 。 其 中 一 人 在 他 家 的 厨房 里 工作 ， 从 晚上 9 点 一 直到 午夜 ， 那 时 
他 的 孩子 们 都 在 睡觉 。 由 于 在 协同 过 滤 领 域 没有 任何 经 验 ， 他 们 部 很 
Bathe, BPR EPA SB CLERK” ° 


参赛 光 手 的 人 数 还 在 增加 ， 成 和 二 上 万 ， 其 中 包括 来 自 看 似 完全 不 
同 领 域 (比如 心理 学 ) 的 人 。 虽 然 这 些 团队 在 相互 竞争 ， 但 他 们 会 发 


现 自己 在 竞争 中 相互 合作 。 事 实 上 ， 正 如 我 们 将 看 到 的 ， 一 个 不 愿意 
回 其 他 团队 学 习 并 与 之 合作 的 团队 想 在 竞争 中 取得 成 功 几乎 是 不 可 能 
的 。 在 搂 下 来 的 两 章 中 ， 我 们 将 追 踩 其 中 几 个 团队 的 百 万 美元 奖金 控 
索 之 旅 。 


1. 贝尔 科 (BellKor) 这 个 名 字 是 他 们 二 人 的 名 字 贝 尔 (Bell) MEHE (Koren) 852 
&; 也 是 对 公司 名 BellCore (Bell Communications Research) 玩 的 一 个 文字 游戏 。 
Yehuda Koren and Robert Bell,“Advances in Collaborative Filtering,"in Recommender 
Systems Handbook,ed.F.Ricci,L.Rokach,B.Shapira,and P.B.Kantor(New — York:Springer 
US,2011),145-186. 


2. B.T.,“Underdogs in$1Million Challenge,”Princeton Alumni Weekly 
Archives, January23,2008,accessed 
April8,2017,http://www.princeton.edu/~paw/archive_new/PAW07-08/07- 
0123/notebook.html#Notebook10. 


3. B.T.,“Underdogs”;Lester Mackey,Dinosaur Planet—Netflix Prize Team,2007,accessed 
April8,2017,https://web.stanford.edu/~Imackey/dinosaurplanet.html. 


如 何 训练 分 类 器 


你 可 能 想 知 道 为 什么 我 在 这 本 书 里 加 入 有 关 电 影 推荐 的 章节 。 电 
影 推荐 引擎 真 的 是 人 工 智 能 的 重大 突破 吗 ? 


试想 ， 如 果 沃 康 松 的 长 第 演奏 者 可 以 只 根据 观众 喜欢 的 内 容 ， 准 
确 地 向 他 们 推荐 他 们 喜欢 的 书籍 和 歌曲 ， 那 它 会 有 多 么 受 欢 迎 ? 公众 
同样 会 喷 喷 称奇 。 实 际 上 ， 推 荐 引擎 是 一 种 算法 ， 旨 在 捕捉 人们 的 侦 
好 ， 正 是 侦 好 让 我 们 成 为 人 类 。 正 如 我 们 将 在 本 章 中 看 到 的 ， 推 荐 引 
擎 可 以 很 好 地 模拟 人 类 的 但 好 ， 甚 至 可 以 在 立法 投票 这 一 最 重要 的 工 
作 中 与 立法 者 抗争 。 如 采 有 人 说 ， 推 荐 引擎 对 我 们 经 济 的 影 啊 已 经 远 
远 超 过 了 目 动 当 驶 汽车 和 国际 象棋 程序 ， 这 肯定 不 是 虚 言 ， 因 为 它们 
正在 为 在 线 商务 提供 动力 。 


我 把 网 飞 奖 写 入 这 本 书 还 有 一 个 更 重要 的 原因 。 比 赛 中 发 生 的 一 
些 事情 ， 包 括 选 手 们 如 何 解决 这 些 问 题 以 及 使 用 了 什么 工具 ， 将 直接 
影响 我 们 如 何 看 待 这 本 书 中 的 其 他 突破 。 正 如 我 们 将 要 看 到 的 ， 这 场 
比赛 中 涌现 的 诸多 想法 几乎 触及 我 们 稍 后 将 看 到 的 每 一 个 主题 。 


本 着 这 一 思路 ， 让 我 们 回顾 一 下 前 儿 章 讨论 过 的 斯 坦 福 大 学 的 目 
动 敬 驶 汽车 斯 坦 利 的 一 个 构件 。 斯 坦 利 在 很 大 程度 上 依赖 于 机 如 学 
习 ， 机 器 学 习 使 它 能 够 在 路 上 行驶 ， 并 能 够 感知 周围 的 环境 。 正 如 我 
们 所 见 ， 赛 巴 斯 蒂 安 ' 特 龙 和 他 的 团队 区 驶 着 斯 坦 利 四 处 转 您 ， 同 时 它 
的 传 感 絮 从 周围 环境 收集 数据 。 然 后 ， 他 们 使 用 这 些 数据 训练 分 类 
郁 ， 以 此 检测 不 同类 型 的 路 面 是 否 适 合 汽车 安全 行驶 。 我 们 忽略 了 斯 
坦 利 检 测 可 行驶 路 面 时 使 用 的 分 类 器 工作 原理 中 的 一 些 细 市 ， 但 是 如 
条 我 们 要 了 解 电影 推 荐 引擎 以 及 我 们 将 在 后 面 的 章节 中 看 到 的 神经 网 
络 的 工作 原理 ， 那 么 了 解 分 类 器 的 工作 原理 很 重要 。 这 些 分 类 右 的 工 


作 原 理 和 物理 齿轮 或 杠杆 一 样 简 单 ， 只 是 它们 不 是 把 能 量 转化 成 有 用 
的 结果 ， 而 是 把 数据 转化 成 有 用 的 结果 。 现 在 ， 我 们 来 回顾 一 下 这 些 
AT o 
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打算 搜集 贝蒂 妙 厨 (Betty Crocker) ixi LNB, HAN ees 
入 这 本 书 中 。 对 于 每 个 食谱 ， 你 都 有 一 个 人 简单 的 决定 要 做 ， 应 不 应 该 
WERA RIEBE? 


回答 这 个 问题 的 一 种 方法 是 ， 准 备 好 你 在 网 站 上 找到 的 每 一 个 食 
详 ， 把 它们 做 成 食物 给 你 的 孩子 品 符 ， 然 后 询问 孩子 的 意见 。 但 是 如 
果 这 个 网 站 上 有 15000 个 食谱 ， 那 么 即使 每 天 笑 试 9 个 新 食谱 并 留 下 记 
录 ， 你 也 要 有关 乌 4 年 多 。 如 果 不 投 入 大 量 的 时 间 和 精力 ， 你 怎么 能 确定 
哪些 食谱 适合 孩子 ? 


学 习 过 机 器 学 习 的 人 会 迫 不 及 每 地 告诉 你 如 何 解 决 这 个 问题 ， 你 
可 以 训练 一 个 分 类 器 ! 在 机 右 学 习 领 域 ,分 类 右 提 供 了 一 种 方法 来 目 
动 判 断 项 目 (比如 食谱 ) 是 否 属于 某 个 类 别 ， 例 如 “适合 孩子 的 食 
详 ”， 与 之 相对 的 便 是 “不 适合 孩子 的 食谱 ”。 


要 使 用 分 类 器 完成 这 项 任务 ， 你 首先 需要 确定 食谱 中 有 哪些 特点 
可 以 区 分 它 是 否 适 合 孩 子 。 此 时 ， 你 可 以 发 挥 创 造 力 和 判断 力 ， 但 有 
些 特 点 可 能 特别 有 助 于 做 这 种 区 分 。 贝 蒂 妙 厨 网 站 上 的 用 户 可 以 提供 
食谱 的 星 级 评分 ， 这 些 评分 可 能 与 孩子 是 否 喜欢 它们 有 关 ， 因 此 你 可 
以 将 这 些 评分 作为 区 分 特点 之 一 。 你 还 希望 选择 易于 豪 饪 且 易 于 理解 
的 食谱 ， 例 如 ， 食 谱 仅 需 少 数 几 个 步 又 或 仅 需 少数 几 种 食材 。 你 可 能 
还 想 考 虑 糖 的 区 数 (孩子 通常 喜欢 糖 ) AS (AFH KEK 
HL) Š 


在 机 器 学 习 中 ， 我 们 把 这 些 用 于 区 分 的 特点 称 为 特征 。 当 我 们 把 
这 些 特征 组 合成 描述 食谱 好 坏 的 食谱 评分 时 ， 神 奇 的 事情 整改 生 了 。 


组 合 它们 的 最 简单 的 方法 是 采用 加 权 平 均值 ， 你 可 以 假设 本 书 中 的 其 
他 分 类 器 也 是 用 这 种 方法 组 合 特征 的 ， 我 们 使 用 权重 来 总 结 每 个 特征 
在 最 终 得 分 中 的 重要 性 。 请 你 花 一 点 时 间 看 看 我 把 它 应 用 到 图 5.1 所 示 
EFR EAEE TDR 


食谱 “假日 烛 雪 糕 布 本 ”的 细节 特征 权重 
PE ve 66 x l 66 
蔬菜 的 克 数 x -2 à 0 
食谱 中 不 易 懂 的 长 单词 数量 3 x -10 mu -30 
ti pU 6 x E 1. FARE 18 
星 级 评分 的 平均 分 5 x 10 50 
食材 数量 14 x -2 -28 
2. 相 加 
食谱 评分 | 40 


图 5.1 通过 把 分 类 器 应 用 到 食谱 “假日 媚 雪糕 布 了 中， 我 们 可 以 看 出 它 
固定 的 ， 每 个 食谱 的 细节 (以 及 食谱 的 得 分 ) BA "EB 
VE ZU 


是 否 适合 孩子 。 权 重 古 
fg T ”的 详细 信息 来 自 


为 什么 要 用 加 权 平 均值 来 组 合 这 些 特征 ? 这 可 能 看 起 来 很 武断 ， 
你 或 许 已 经 正确 地 猜 到 ， 机 器 学 习 人 研究 人 员 已 经 找到 了 上 百 万 种 将 这 
些 特 征 组 合成 分 数 的 方法 。 但 这 种 方法 简单 直接 ， 易 于 推理 。 到 目前 
KE, 它 古 构建 本 书 中 所 有 目 动 机 的 最 重要 的 “统计 工具 ”。 请 记 住 ， 
这 只 是 一 个 构件 。 我 们 希望 它 很 侧 单 ， 因 为 我 们 要 把 它 与 其 他 构件 组 
合 起 来 ， 而 且 我 们 希望 能 够 理解 我 们 构建 的 东西 。 


想 要 从 加 权 平 均值 中 得 到 一 个 分 类 紫 ， 我 们 只 需 先 择 一 个 病 值 ， 
例如 我 们 将 国 值 设 为 "0”， 将 高 于 该 国 值 的 所 有 食谱 都 称 为 好 食谱 ， 而 
将 低 于 该 闵 值 的 称 为 坏 食 谱 。 根 据 图 5.1 中 的 分 类 器 ,， “ECA PS An 
本 "是 一 个 很 适合 编 入 儿童 亮 饪 书 中 的 食 谈 ， 尽 管 它 有 点 复杂 ， 但 它 多 
糖 且 没有 蔬菜 的 优点 弥补 了 这 一 点 。 
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征 的 权重 ， 并 且 要 远 择 阐 值 。 你 可 以 给 孩子 准备 一 些 食谱 ， 并 记录 他 
们 对 每 个 食谱 的 喜爱 程度 ， 以 此 搜集 这 些 数 据 。 然 后 ， 你 可 以 用 统计 
学 中 的 标准 公式 ， 根 据 这 些 数据 估算 权重 。 你 可 能 在 高 中 时 看 到 过 这 
个 公式 (并且 很 快 就 忘记 了 ) ， 你 学 会 了 在 一 张 纸 上 用 一 些 点 (x, 
y) 拟 合 最 佳 直 线 。 这 里 使 用 的 是 相同 的 公式 ， 只 是 每 个 y 坐 标 都 对 应 


多 个 x 坐标 。 


一 旦 你 用 少数 几 个 食谱 (比方 说 ，100 个 食谱 而 不 是 15000 个 食 
谱 ) 来 拟 合 这 个 分 类 器 的 权重 ， 就 可 以 让 计算 机 运行 这 个 分 类 器 ， 以 
此 预测 剩 下 的 14900 个 食谱 是 好 是 坏 。 根 据 这 个 分 类 器 ， 你 可 以 从 
15000 个 食谱 中 挑选 出 200 个 最 好 的 食谱 ， 然 后 尝 斌 一下， 确认 它 们 确 
实 不 错 ， 保 留 最 好 的 ， 这 时 便 大 功 告 成 了 。 


现在 ， 有 了 构建 分 类 器 的 技巧 ， 让 我 们 回 到 网 飞 奖 ， 看 看 我 们 如 
何 使 用 分 类 右 推 荐 电影 。 


is ”Holiday Baked Alaska,” Betty Crocker website,accessed 
March8,2017,http://www.bettycrocker.com/recipes/holiday-baked-alaska/c936a634-e9d54acc- 
ae6d-0127fc8d1371. 


比赛 的 目标 


网 飞 应 该 使 用 什么 标准 向 观众 推荐 电影 ? 推荐 电影 的 目标 应 该 是 
AWE? 2008F, WER ËR (Clive Thompson) 在 为 《纽约 时 
报 》 撰 写 的 一 篇 文章 中 探讨 了 这 些 问题 ， 当 时 比赛 正在 进行 中 。 人 党 ) 他 
问 道 ， 网 飞 的 电影 推荐 服务 是 否 应 该 旨 在 保守 地 向 你 推荐 你 很 可 能 喜 
欢 的 电影 ， 即 使 这 部 电影 不 会 让 你 离开 舒适 区 ? 或 者 推荐 服务 是 否 应 
该 扮演 古怪 的 音像 店 店员 的 角色 ， 一 边 向 你 推荐 你 绝对 喜欢 的 电影 ， 


一 边 冒 险 推 荐 一 部 你 可 能 会 认为 无 聊 的 电影 ? © 


在 当时 的 传统 音像 店 中 ， 新 电影 和 流行 电影 占 了 租赁 的 大 部 分 ， 
传统 音像 店 可 以 依靠 这 些 有 限 的 选择 更 容易 地 推荐 电影 。 网 飞 与 众 不 
同 ， 其 70% 的 租赁 都 来 自 不 相关 的 或 古老 的 “ 压 箱底 "电影 。 面 对 如 此 
庞大 的 电影 数量 ， 加 上 每 次 租赁 之 间 都 有 很 长 时 间 的 延迟 ， 网 飞 依靠 
自己 的 电影 推荐 系统 Cinematch (电影 匹配 ) 来 向 用 户 推荐 电影 。 增 加 
Cinematch 对 公司 的 利润 至 关 重 要 ， 因 为 他 们 有 可 能 失去 那些 极 少 看 网 
飞 电影 或 者 不 喜欢 等 几 天 才能 看 到 电影 的 用 户 ， 这 些 观众 最 有 可 能 取 
RAT ° S 


因此 ， 网 飞 的 工程 师 不 断 改进 他 们 的 Cinematch 推 荐 算法 。 当 他 们 
再 无 力 改善 时 ， 便 决定 举办 网 飞 奖 ， 奖 励 第 一 支 推荐 效率 超过 网 飞 算 
法 10% 的 团队 100 万 美元 奖金 。 正 如 网 飞 首席 执行 官 里 德 : 黑 斯 廷 斯 
(Reed Hastings) 所 指出 的 ， 对 他 们 而 言 ， 支 付 巨 额 奖金 并 不 算 真 正 
的 风险 ， 获 得 更 好 的 电影 推荐 所 带 来 的 经 济 利益 可 能 远 远 超过 奖金 的 
成 本 。( 周 即使 他 们 的 推荐 系统 只 有 微小 的 改进 ， 也 可 能 带 来 总 体 上 的 
大 胜利 ， 因 为 在 网 飞 每 天 的 数 亿 个 推荐 中 ， 这 一 数字 是 成 倍增 长 的 。 
(加 如 果 所 有 参赛 队 都 没 达到 10% 的 目标 ， 网 飞 也 会 颁发 进步 奖 。 如 果 
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励 。 网 飞 只 附加 了 一 个 条 件 ， 获胜 者 需要 公布 他 们 的 推荐 算法 的 细 


He 
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网 飞 为 参赛 者 提供 了 一 个 客观 明确 的 目标 ， 从 而 简化 了 任务 。 参 
赛 者 需要 预测 特定 用 户 在 特定 日 期 为 特定 电影 打出 的 星 级 评分 。 网 飞 
通过 计算 参赛 者 预测 的 评分 与 用 户 在 一 个 秘密 数据 集 (参赛 者 永远 不 
ee a 
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的 表现 ， 并 在 公共 排行 榜 上 更 新 他 们 的 分 数 ， 其 他 团队 和 记者 都 会 密 
切 关注 他 们 的 分 数 。( 因 从 技术 上 讲 ， 一 个 团队 仍然 可 以 通过 提交 大 量 
的 预测 来 “ 偷 颖 ”这 个 数据 集中 的 电影 评分 ， 但 网 飞 非常 聪明 ， 他 们 把 
男 一 个 永远 不 会 透露 给 参赛 者 的 秘密 数据 集 藏 了 起 来 。 这 个 双重 保密 
的 数据 集 只 会 在 比赛 结束 时 用 于 评估 最 优秀 的 候选 人 。 
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庞大 的 评分 矩阵 


鉴于 网 飞 奖 专注 于 用 户 的 电影 评分 ， 所 以 把 问题 当 作 一 个 庞大 的 
评分 矩阵 来 思考 是 有 帮助 的 。 我 在 图 5.2 中 展示 了 这 个 矩阵 中 的 一 个 小 
样本 (数据 纯 属 虚 构 ) 。 


这 个 矩阵 非常 庞大 ， 它 提供 了 17770 部 电影 和 480189 个 不 同 用 户 的 
评分 。( 因 网 飞 提供 了 一 些 用 户 对 某 些 电影 的 评分 ， 并 要 求 参 赛 者 预测 
一 些 缺 失 的 评分 (和 矩阵 中 的 问号 ) 。 尽 管 矩阵 规模 庞大 ， 但 只 有 19% 的 
矩阵 方 格 里 有 数字 。 不 用 说 ， 大 多 数 网 飞 用 户 都 只 给 少数 电影 打 过 


分 。 


那么 参赛 者 应 该 从 何 下 手 呢 ? 


《终结 者 2》 
《奇异 小 子 》 
《 独 领 风骚 》 
《大 人 物 拿破仑 》 
《 潘 神 的 迷宫 》 


CERY 
(X ARSE) 
《剪刀 手 爱德华 》 


图 5.2 网 飞 用 户 为 各 部 电影 打出 的 星 级 评分 示例 。 网 飞 在 矩阵 中 提供 了 一 些 评分 (用 数字 表 


不 o 
竞争 者 需要 预测 一 些 缺 失 的 评分 (用 问号 表示 ) 


在 比赛 开始 之 初 ， 大 多 数 顶级 竞争 者 都 采用 非常 相似 的 方法 来 分 
析 这 些 评分 。 由 AT&T 和 雅虎 的 研究 人 员 组 成 的 “贝尔 科 ” 队 的 成 员 指 
出 ， 从 简单 的 基准 模型 开始 解释 评分 和 矩阵 中 最 基本 的 趋势 是 很 重要 
的 。“ 贝 尔 科 ” 队 的 基准 模型 主要 有 两 部 分 。 第 一 部 分 只 适用 于 电影 ， 
我 们 可 以 称 之 为 中 .工效 应 ”。(E.T 效 应 衡量 一 部 电影 的 受 欢迎 程度 ， 
而 不 管 是 谁 给 它 打分 。 例 如 ， 在 网 飞 的 数据 集中 ， 最 不 受 欢 迎 的 电影 
是 《吸血 时 猎人 阿 维 亚 》 (AviaVampire Hunter) ， 这 是 一 部 低 成 本 的 
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人 阿 维 亚 》 在 网 飞 上 有 132 个 评分 ， 平 均 分 只 有 1.5 星 〈 满 分 5 星 ) 。 亚 
马 进 上 有 两 条 关于 这 部 电影 的 评论 ， 其 中 一 条 评论 说 : 


我 看 了 这 部 垃圾 电影 ， 应 该 得 到 报酬 的 。 这 有 征 在 别人 家 后 院 用 手 
持 摄像 机 柏 的 。 别 看 了 “。 如 果 这 能 叫 电 影 的 话 ， 那 它 束 是 我 看 过 的 最 
TESA Aa? | 如 采 我 事先 知道 的 话 ， 日 送 我 也 不 看 。 


在 另 一 个 极端 ， 最 受 欢 迎 的 电影 是 奇幻 片 《 指 环 王 3: ETCH) 
(Lord of the Rings:The Return of the King) 的 加 长 版 ， 在 网 飞 的 数据 集 
中 ， 这 部 电影 有 73000 个 评分 ， 平 均 分 为 4.7 星 ， 分 数 相 当 高 。 它 在 亚 
马 逊 上 得 到 了 压倒 性 的 好 评 ， 以 下 是 亚马逊 上 对 这 部 电影 的 一 条 评 


论 : 


Ate I! 如 果 你 从 未 看 过 《指环 王 》 三 部 曲 ， 那 么 我 强烈 推荐 ! 
真是 优秀 的 三 部 曲 。 我 特别 喜欢 加 长 版 .…… 


虽然 这 条 评论 说 的 更 多 的 是 天 于 三 部 曲 而 不 是 单 部 电影 ， 但 显然 
观众 喜欢 它 。 而 在 亚 马 进 上 对 这 部 电影 的 负面 评论 ， 更 多 的 是 关于 视 
频 的 格式 或 视频 的 卖家 ， 而 非 电影 本 号 的 。 


“贝尔 科 ” 队 的 基准 模型 的 另 一 部 分 ， 我 们 可 以 称 之 为 " 音 亩 昂 效 
应 ”， 它 冒 在 捕捉 网 飞 用 户 在 给 电影 评分 时 是 乐观 心态 还 是 悲观 心态 。 
一 些 用 户 给 他 们 评价 的 所 有 电影 都 打 了 1 星 ， 但 大 多 数 人 的 评分 部 介 于 
两 个 极端 之 间 。 这 些 观众 是 否 做 到 客观 评分 并 不 重要 ， 但 这 些 趋势 是 
存在 于 数据 中 的 事实 ， 这 意味 着 像 “ 贝 尔 科 ” 队 这 样 的 团队 需要 捕 提 它 
们 。 


有 了 “贝尔 科 *” 队 概括 的 两 种 效应 一 一 E.T. 效 应 和 音 青 办 效应 ， 我 们 
便 可 以 拼凑 起 一 个 基本 的 推荐 引 敬 。“ 贝 尔 科 ” 队 将 E.T 戏 应 、 音 请 见效 
应 和 一 个 整体 偏差 项 ( 它 描述 了 所 有 用 户 对 所 有 电影 的 平均 评分 ) 整 


合 到 一 个 单一 模型 中 ， 使 用 的 分 类 右 类 似 于 我 们 为 《世界 最 佳 儿童 食 
详 》 所 创建 的 分 类 器 。 在 这 个 简单 的 模型 中 ， 分 类 右 学 习 了 每 部 电影 
的 权重 、 每 个 用 户 的 权重 以 及 截 距 。 有 了 这 样 的 推荐 引擎 , “贝尔 
科 ” 队 便 可 以 向 网 飞 用 户 推 荐 最 好 的 电影 ， 在 没有 任何 其 他 信息 的 情况 
B. DUEB 


这 个 推荐 引 敬 的 问题 在 于 ， 它 总 是 同 所 有 用 户 推 荐 相同 的 电影 ， 
特别 是 《指环 王 》 和 其 他 流行 DVD， 比 如 《迷失 》 (Lost) 第 一 季 和 
(ESÉZR— RR) (The Simpsons) 第 六 季 “。 它 无 法 提供 个 性 化 的 推荐 。 
如 果 网 飞 使 用 这 种 方式 同 每 个 用 户 推荐 电影 ， 那 么 它 将 永远 无 法 满足 
那些 只 喜欢 非 美 国电 影 、 男 类 电影 或 儿 董 电影 的 网 飞 用 户 。 它 对 每 个 
人 而 言 都 说 得 过 去 ， 但 对 每 个 人 来 说 都 不 完美 。 


事实 上 ， 大 多 数 人 都 无 法 对 这 和 种“ 一刀切? 式 系统 的 服务 感到 满 
意 。 美 国 空军 在 20 世 纪 50 年 代 分 析 不 计 其 数 的 空难 的 原因 时 发 现 了 这 
一 点 。20 世 纪 20 年 代 ， 人 们 发 明了 匹配 美国 男性 平均 喘 高 的 要 驶 租 ， 
但 研究 这 个 问题 的 科学 家 吉尔 伯 特 .丹尼尔 斯 上 尉 (Gilbert Daniels) 发 
现 ， 大 多 数 男 性 的 号 材 并 不 平均 。 正 如 哈佛 大 学 教育 学 教授 托 德 :罗斯 
(Todd Rose) 在 他 的 书 《 平 均 的 终结 》 (The End of Average) 中 解释 
的 那样 : 


在 4063 名 飞行 员 中 ， 没 有 一 名 飞行 员 的 全 部 10 个 矿 才 都 在 平均 苍 
围 内 。 一 名 飞行 员 的 臂 长 可 能 比 乎 均 长 度 长 ， 腿 长 却 比 乎 均 长 度 短 。 
另 一 名 飞行 员 的 胸围 很 大 ， 茧 围 却 很 小 。 更 让 人 吃惊 的 是 ， 丹 尼 尔 斯 
发 现 ， 如 果 你 只 挑选 出 10 个 尺寸 中 的 3 个 ， 比 如 有 贷 围 、 大 腿 围 和 手腕 
围 ， 仍 然 只 有 不 到 3.5% 的 飞行 员 的 全 部 3 个 尺寸 都 处 于 平均 范围 内 。 
丹尼尔 斯 的 发 现 清楚 明日 且 无 可 办 驶 。 没 有 所 谓 的 典型 飞行 员 。 如 琳 
你 设计 的 驾驶 舱 适 合 典型 飞行 员 ， 那 么 实际 上 它 不 适合 任何 人 。 人 外 
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做 ， 空 军 采纳 了 他 的 建议 。 


通过 放弃 平均 标准 作为 参考 标准 ， 空 军 在 设计 理念 上 实现 了 一 次 
飞跃 ， 其 核心 是 一 项 新 的 指导 原则 : 个 体 适应 。 军 队 不 再 让 个 人 适应 
体制 ， 而 是 开始 让 体制 适应 个 人 。 短 时 间 内 ， 空 军 要 求 所 有 的 驾驶 舱 
都 要 适合 不 同体 型 的 飞行 员 ， 只 要 他 们 每 个 尺寸 的 测量 值 都 在 平均 水 
平 的 5%~95% 范 围 内 。 


他 们 设计 了 可 调式 座 椅 ， 这 项 技术 现在 已 成 为 所 有 汽车 的 标准 技 
术 。 他 们 发 明了 可 调式 脚 踏 板 ， 开 发 了 可 调式 头 盘 党 和 飞行 服 。 


这 些 以 及 其 他 设计 方案 一 落实 到 位 ， 飞 行 员 的 表现 便 大 幅 提 升 ， 
美国 空军 成 为 世界 上 最 强大 的 空军 之 一 。 不 久 ， 美 国 军 方 的 每 个 部 门 
都 发 布 了 指导 方针 ， 规 定 装备 必须 适合 各 种 体型 ， 而 不 是 按 平均 水 平 
met o 9 
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对 每 个 用 户 提 供 定制 服务 。 我 们 需要 捕捉 “终结 者 效应 ”。 不 是 所 有 的 
网 飞 用 户 都 喜欢 《终结 者 》 这 样 的 科幻 片 和 动作 片 ， 有 些 用 户 喜 欢 儿 
童 电影 ， 有 些 用 户 两 者 都 喜欢 ， 而 有 些 用 户 两 者 都 不 喜欢 。 为 了 捕 
捉 “ 终 结 者 效应 ”， 大 多 数 团 队 痢 采用 了 一 种 叫 矩 阵 分 解 的 方法 。 


1. Tóscher et al.,“The BigChaos Solution to the Netflix Grand Prize.” 


2. 埃 德 温 : 陈 (Edwin Chen) 写 了 一 篇 关于 这 些 效 应 的 优秀 博客 文章 ， 他 称 之 为 爱丽 
丝 效应 (BUTT ATUL Ss et AO) 和 盗 梦 空间 效应 (我 们 所 说 的 E 工 效应 ) 。 那 篇 博文 
是 Winning the Netflix Prize:A Summary,accessed 


April21,2017,http://blog.echen.me/author/edwin-chen3.html ° 


3. Todd Rose,“When U.S.Air Force Discovered the Flaw of  Averages,"Toronto 
Star, January16,2016,excerpted from The End of Average(New 
York:HarperCollins,2016),accessed 


June16,2017,https://www.thestar.com/news/insight/2016/01/16/when-us-air-force-discovered- 
the-flaw-of-averages.html. 


Rose,*When U.S.Air Force Discovered the Flaw of Averages." 


矩阵 分 解 


和 矩阵 分 解 依赖 于 这 样 一 个 事实 ， 即 图 5.2 中 庞大 的 评分 矩阵 里 有 许 
多 宛 余 信息 。 喜 欢 《 飞 出 个 未 来 》 (Futurama) 的 人 倾向 于 喜欢 《 池 
ERZ) , EM (BEWERK) (Shrek) 的 人 倾向 于 喜欢 它 的 衍生 
剧 《 穿 靴子 的 猫 》 (Puss in Boots) 。 承 认 这 个 矩阵 中 存在 元 余 信息 ， 
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征 假 定 人 们 的 评分 中 存在 可 预测 的 模式 。 


为 了 了 解 矩阵 分 解 育 后 的 关键 思想 ， 我 们 和 暂时 假设 可 以 用 几 个 数 
字 来 总 结 电影 和 用 户 。 对 每 一 部 电影 而 言 ， 这 些 数字 可 能 只 是 代表 了 
它 可 能 的 类 型 。 它 是 动作 片 、 喜 剧 片 、 惊 悚 片 ， 还 是 这 些 类 型 的 某 种 
组 合 ? 我 们 可 以 将 每 部 电影 表示 为 一 个 简短 有 序 的 数字 列表 : “1” 表 示 
符合 某 一 类 型 ，“0” 表 示 不 符合 某 一 类 型 。 


我 们 也 可 以 用 同样 的 方法 表示 网 飞 用 户 的 偏好 : “1 表示 用 户 喜 欢 
这 种 类 型 ，“-1” 表 示 用 户 不 喜欢 这 种 类 型 ，“0” 代 表 用 户 不 关心 它 。 如 
果 用 户 非 常 喜欢 或 不 喜欢 某 一 类 型 ， 我 们 束 可 以 使 用 更 具体 的 数字 ， 
如 “1.5” 或 “2.2”。 和 暂时 不 要 担心 我 们 从 哪里 获得 关于 电影 和 用 户 的 信 
息 。 现 在 ， 我 们 假设 可 以 从 维基 百科 和 互联 网 电影 数据 库 (IMDb) 等 
公共 资源 中 了 解 一 部 电影 属于 哪 种 类 型 ， 还 可 以 简单 地 通过 调查 来 询 
问 人 们 喜欢 哪 种 类 型 的 电影 。 


一 旦 用 这 些 描 述 性 数字 描述 数据 库 中 的 每 部 电影 和 每 个 用 户 ， 我 
们 吏 可 以 用 它们 预测 某 个 人 是 否 喜 欢 某 部 电影 。 让 我 们 试 着 预测 一 下 
导演 史蒂芬 .斯 皮尔 伯 格 是 否 喜 欢 《 侏 罗 纪 公园 》  (urassicPark) 。 这 
部 电影 主要 是 科幻 和 冒险 类 型 ， 所 以 我 们 假设 《 侏 罗 纪 公园 》 的 这 两 
种 类 型 是 “1”， 其 他 类 型 都 是 “0”。 假 设 斯 皮尔 伯 格 非常 喜欢 科幻 片 


(12) ， 有 点 喜欢 冒险 片 和 喜剧 片 (0.6 和 0.5) $, DEKEMA (一 
1.2) 等 ， 我 们 该 如 何 结合 这 些 数字 预测 他 是 否 喜 欢 《 侏 有 纪 公 园 》? 


一 种 简单 的 方法 十， 用 描述 《 侏 罗 纪 人 公园》 是 否 属 于 每 种 类 型 的 
数 子 ， 乘 以 史蒂芬 -斯 皮尔 伯 格 对 这 些 类 型 的 言 爱 程度 ， 然 后 把 这 些 乘 
积 加 起 来 ， 得 到 一 个 描述 他 对 《 侏 罗 纪 公 园 》 喜 爱 程度 的 分 数 OE 
5.3) 。 我 不 保证 这 是 组 合 这 些 数字 的 最 佳 方式 ， 但 如 有 果 你 愿意 暂时 放 
下 疑虑 ， 可 能 会 同意 这 人 至少 会 让 我 们 朝 着 正确 的 方向 前 进 。 


《 侏 罗 纪 公园 》 斯 皮尔 伯 格 的 电影 ” 斯 皮尔 伯 格 对 《 侏 罗 纪 公园 》 

的 电影 类 型 类 型 喜爱 程度 的 电影 类 型 喜爱 程度 
科幻 @ 1 ? @ 12 i2 
戏剧 性 | O 0 * 1O 03 0 
恐怖 © 0 x Q —].2 y 0 
喜剧 @ x | @ o LAE 0 
冒险 @ 1 x | @ os 0.6 
爱情 @ x [ XD 0 
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图 5.3 确定 史蒂芬 斯 皮尔 伯 格 是 否 会 喜欢 电影 《 侏 罗 纪 公园 》 的 测试 。 在 这 里 ， 我 们 可 以 假 
设 《 侏 罗 纪 公 园 》 属 于 科幻 和 冒险 两 种 类 型 。 史 蒂 分 .斯 皮尔 伯 格 倾向 于 喜欢 科幻 片 、 喜 剧 片 


和 冒险 片 等 ， 而 不 喜欢 恐怖 片 等 ， 正 如 他 对 各 类 电影 的 喜爱 程度 所 表明 的 那样 。 我 们 将 电影 

类 型 的 分 数 (0 或 1) 与 斯 皮尔 伯 格 对 这 些 类 型 的 喜爱 程度 相 乘 ， 然 后 把 结果 相 加 ， 将 其 组 合 

成 一 个 得 分 。 结 果 是 描述 了 斯 皮尔 伯 格 对 《 侏 罗 纪 公 园 》 的 喜 
爱 程 度 


EE 
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性 化 推荐 的 最 重要 的 算法 ， 我 想 让 你 内 化 的 一 种 关键 直觉 是 : 这 个 算 


法 假设 我 们 已 经 用 几 个 数字 总 结 了 每 部 电影 和 每 个 用 户 ， 就 像 图 5.3 中 
展示 的 那样 。 它 提供 了 一 种 方法 ， 将 这 些 数字 组 合成 一 个 “吸引 力 ” 分 
数 ， 来 描述 每 个 用 户 对 每 部 电影 的 喜爱 程度 。 这 就 是 所 谓 的 矩阵 分 
解 ， 因 为 根据 数学 原理 ， 它 相当 于 将 图 5.2 中 原始 的 庞大 评分 矩阵 近似 
为 两 个 或 更 多 小 矩阵 ( 即 它 的 因子 ) 的 乘积 ， 这 些小 矩阵 恰好 编码 了 
我 们 用 来 描述 电影 和 用 户 的 数字 。 人 党 如 果 将 图 5.3 与 图 5.1 进 行 比较 ， 
你 就 会 注意 到 我 们 在 这 两 者 中 都 创建 了 分 类 器 。 在 图 5.1 中 ， 特 征 是 食 
谱 ， 权 重 是 孩子 们 的 偏好 ;在 图 5.3 中 ， 特 征 是 电影 的 类 型 ， 权 重 是 斯 
皮尔 伯 格 的 电影 偏好 。 这 个 手工 制作 的 分 类 器 让 我 们 能 够 为 斯 皮尔 伯 
格 提供 个 性 化 推荐 。 


如 你 所 想 ， 如 果 我 们 从 数据 中 学 习 这 些 权重 ， 就 可 以 做 得 更 好 。 
如 果 斯 皮尔 伯 格 在 网 飞 上 给 电影 评分 ， 我 们 束 可 以 使 用 这 些 评分 和 他 
所 评分 的 电影 的 类 型 来 自动 了 解 他 的 电影 偏好 。 这 和 我 们 训练 分 类 
郁 ， 为 孩子 们 寻找 优秀 食谱 时 所 做 的 完全 一 样 ， 只 是 现在 我 们 是 训练 
分 类 如 为 斯 皮尔 伯 格 提供 电影 推荐 。 这 个 分 类 右 只 适用 于 斯 皮尔 伯 
格 ， 但 是 对 每 个 网 飞 用 户 重复 这 个 过 程 非常 简单 。 利 用 每 个 用 户 过 去 
的 电影 评分 ， 我 们 可 以 目 动 为 他 们 创建 一 个 分 类 絮 ， 而 无 须 直 接 询问 
他 们 喜欢 哪 种 电影 类 型 。 


事实 证 明 ， 我 们 可 以 进一步 改进 这 些 预 测 。 要 了 人 解 具体 方法 ， 请 
再 次 看 图 5.3。 请 注意 ，《 侏 罗 纪 公园 》 的 类 型 被 固定 为 “0” 或 “1”。 我 
通过 查看 互联 网 电影 数据 库 来 选择 这 些 数 字 ， 但 是 我 们 可 以 通过 从 数 
据 中 了 解 电 影 的 类 型 来 改进 我 们 的 预测 。 我 们 不 需要 用 “0” 或 “1” 来 摘 
述 《 侏 罗 纪 公园 》， 转 而 使 用 用 户 对 电影 的 评分 来 表示 它 ， 方 法 和 我 
们 用 来 了 解 斯 皮尔 伯 格 对 不 同类 型 电影 偏好 的 方法 完全 相同 。 


既然 我 们 已 经 知道 了 每 部 电影 的 类 型 ， 为 什么 还 要 费心 从 数据 中 
学 习 电 影 的 类 型 呢 ? 因为 对 完成 电影 推荐 任务 而 言 ， 我 们 没有 理由 相 
信人 类 选择 的 类 型 标签 是 总 结 电影 的 最 佳 方法 。 固 定 的 类 型 对 描述 电 


影 而 言 太 粗糙 了 。 事 实 上 ， 我 们 有 足够 的 证 据 证 明 电影 类 型 是 不 国定 
的 。 像 《 侏 罗 纪 人 公园》 这样 的 电影 完美 地 说 明了 这 一 点 ，《 侏 罗 纪 公 
园 》 既 十 科 纠 片 ， 也 是 冒险 片 ， 但 它 也 有 一 些 喜 剧 元 素 和 念 居 元素。 
因此 ， 对 后 两 种 类 型 ， 它 至 少 应 该 有 一 点 权重 。 而 且 有 些 类 型 太 粗 
糙 ， 喜 剧 电 影 可 能 钙 枯 燥 的 、 滑 移 的 或 淫秽 的 ， 而 每 种 类 型 的 喜剧 可 
能 会 吸引 完全 不 同 的 观众 。 对 音像 店 店 员 和 其 他 人 而 言 ， 电 影 类 型 是 
描述 电影 的 一 种 有 用 的 方式 ， 但 对 于 预测 人 们 对 电影 的 喜爱 程度 ， 它 
并 不 是 很 有 用 ， 至 少 与 我 们 从 数据 中 学 到 类 型 相 比 是 这 样 。( 思 如 果 能 
忽略 人 们 最 初 使 用 的 电影 类 型 ， 而 仅仅 使 用 我 们 通过 机 器 学 习 ， 从 评 
E ns um ean 


实际 上 ， 正 如 “贝尔 科 ” 队 的 殉 里 斯: 沃 林 斯 基 所 指出 的 那样 ， 
在 “贝尔 科 ” 队 的 实验 中 ， 来 目 评 分 矩阵 以 外 的 数据 似乎 都 对 预测 评分 
没有 太 大 用 处 。 他 们 竹 试 分 析 了 很 多 东西 ， 例 如 电影 类 型 、 参 演 演 
员 、 影 片上 映 日 期 等 ， 但 似乎 都 没有 什么 帮助 。 克 里 斯 的 直觉 是 ， 电 
影评 分 的 数据 集 是 如 此 庞大 、 如 此 丰富 ， 关 于 哪些 人 会 喜欢 某 部 电影 
的 一 切 你 需要 知道 的 信息 ， 它 都 已 经 告诉 你 了 。 成 千 上 万 个 不 同 的 人 
对 一 部 电影 的 评分 ， 比 任何 外 部 知识 都 更 能 告诉 你 这 部 电影 的 情况 。 
一 部 电影 的 评分 就 像 是 它 的 数字 指纹 ， 和 矩阵 分 解 为 这 个 指纹 提供 了 简 
洁 而 优秀 的 总 结 。 


如 宋 我 们 在 这 两 个 步骤 之 间 反 复 交 替 ， 也 束 是 说 ， 在 保持 用 户 对 
固定 类 型 喜爱 程度 的 同时 学 习 电 影 类 型 ， 然 后 在 保持 类 型 固定 的 同时 
预 判 用 户 对 这 些 类 型 的 喜爱 程度 ， 那 么 我 们 的 推荐 会 越 来 越 好 ， 直 到 
类 型 最 终 集 止 变化 。 到 那 时 ， 我 们 将 会 学 习 到 每 个 用 户 的 一 组 权重 ， 
以 及 每 部 电影 的 男 一 组 权重 ,我们 可 以 把 它们 相 乘 并 相 加 ， 为 “用 户 
一 一 电影 "匹配 提供 丰富 的 个 性 化 推荐 。 这 吏 是 大 多 数 数 据 科 学 家 在 谈 
到 和 矩阵 分 解 时 所 表达 的 意思 ， 这 种 从 数据 中 重新 学 习 类 型 和 对 类 型 受 
欢迎 程度 进行 预 判 的 交 蕉 过程 号 古 他 们 通常 计算 矩阵 分 解 的 方法 。 


当 我 们 用 这 种 交替 方法 学 习 这 些 人 工 类 型 的 时 候 ， 它 们 就 会 偏离 
人 们 最 初 使 用 的 电影 类 型 。 到 我 们 完成 的 时 候 ， 它 们 可 能 看 起 来 根本 
不 像 最 初 的 类 型 ， 但 它们 通 利 仍然 是 可 以 解释 的 。 


我 刚才 描述 的 这 种 矩阵 分 解 方法 可 能 与 你 在 大 学 课堂 上 听 到 的 甜 
阵 分 解 方法 不 一 样 。 通 常 ， 当 研究 人 员 同 其 他 人 谈论 矩阵 分 解 时 ， 他 
们 会 绘制 一 幅 图 ， 图 上 是 各 种 电影 在 评分 矩阵 中 形成 一 个 点 云 。 在 这 
个 点 云 中 ， 评 分 相似 的 电影 彼此 接近 ， 而 评分 相差 很 大 的 电影 往往 相 
距 其 远 。 事 实 上 ， 根 据 矩 阵 创 建 这 样 的 点 云 很 容易 ， 尺 管 这 很 难 想 
象 ， 因 为 每 个 电影 点 都 有 480189 个 坐标 ， 每 一 个 坐标 都 代表 480189 个 
用 户 中 的 每 个 人 对 这 部 电影 的 评分 。 


但 是 ， 整 像 算 阵 一 样 ， 这 个 云 有 很 多 见 余 信息 。 帘 阵 分 解 把 电影 
的 “高 维 云 ”分解 成 仍然 可 以 捕捉 到 我 们 关心 的 趋势 的 * 低 维 云 ”， 即 相 
似 的 电影 聚 在 一 起 ， 而 不 同 的 电影 往往 彼此 相距 很 还 。 在 新 的 空间 
中 ， 每 一 部 电影 都 可 以 用 6~100 个 数字 来 描述 ， 这 些 数字 正 是 我 们 用 上 
面 的 交替 方法 找到 的 数字 。 


当 人 研究 人 员 处 理 任意 可 以 被 放 入 庞大 矩阵 中 的 数据 时 ， 和 矩阵 分 解 
及 其 同类 方法 通常 是 他 们 的 首选 。 人 时 例如 ， 政 治学 家 使 用 矩阵 分 解 来 
理解 国会 议员 如 何 投票 表决 立法 。 如 果 把 国会 议员 对 不 同 法 案 的 投票 
放 到 一 个 巨大 的 矩阵 中 ， 并 对 其 应 用 矩阵 分 解 ， 我 们 避 ® 可 以 用 一 两 个 
数字 来 很 好 地 概括 每 个 议员 和 每 一 项 法 案 。( 因 例如， 在 两 年 的 时 间 
里 ， 仅 仅 用 一 个 数字 来 措 述 每 一 个 议员 ， 你 号 可 以 解释 众议院 98% 的 
选票 ， 这 个 数字 可 以 解释 他 们 的 政和 党。 如 采 你 用 这 个 数字 来 确定 议员 
WLG, Wes ACHES SE AMEME E EETA A FER 
我 们 ， 美 国 国会 议员 的 投票 实际 上 是 一 维 的 。 


1. 秩 为 5 的 矩阵 分 解 可 以 把 全 和 矩阵 近似 为 一 个 17770x5 和 矩阵 和 一 个 5x480189 和 矩阵 的 乘 
积 。 其 中 仍然 有 很 多 数字 ， 但 它 远 远 小 于 我 们 所 拥有 的 1 亿 个 评分 ， 更 远 不 及 原始 矩阵 


3. 


4. 
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中 的 85 亿 个 元 素 。 有 时 ， 我 们 把 矩阵 分 解 人 


段 设 为 秩 为 3 的 矩阵 分 解 ， 其 中 一 个 因子 是 正 


方形 矩阵 ， 另 外 两 个 因子 满足 某 些 约束 条 件 ， 例 如 列 向 量具 有 固定 的 长 度 且 相 互 正 交 。 


Martin Chabbert,Progress 


Prize2008,December10,2008,accessed 


March6,2017,http://pragmatictheory.blogspot.com/search?updated-min=200801-01T00:00:00- 
05:00&updated-max=2009-01-01T00:00:00-05:00&maxresults=6. 


Sciences, vol.8(Providence,RI:American Mathematical Society,2010). 


ALEAREN HTT 1 833) 
(NMF) ° 
. 在 这 个 矩阵 中 ， 我 们 可 
如 何 投 票 。 


Dana Mackenzie,“Accounting for Taste,"in What's Happening in the Mathematical 


主 成 分 分 析 (PCA) ` SAED (SVD) AAR fi AERO A 


以 将 议员 设置 为 列 ， 将 法 案 设置 为 行 ， 


0 或 1 表示 每 个 议员 


第 一 年 结束 


借助 矩阵 分 解 等 工具 来 捕捉 终结 者 效应 ， 并 将 它们 与 捕捉 音 主 见 
效应 和 E.T. 效 应 的 模型 相 结合 ， 顶 尖 团 队 参 着 网 飞 次 的 目标 取得 了 相 
当 大 的 进展 。 到 第 一 年 结束 时 ， 顶 尖 团 队 算 法 的 推荐 效率 比 网 飞 目 己 
的 Cinematch 算 法 高 出 8% 左 右 。 这 并 不 足以 让 他 们 属 得 大 交 ， 但 足以 
保证 一 些 团 队 有 资格 获得 5 万 美元 的 进步 奖 。 进 步 奖 每 年 颁发 一 次 ， 这 
意味 着 选手 们 面临 着 即将 到 来 的 最 后 期 限 。 


随 着 最 后 期 限 的 临近 ， 由 AT&T 实 验 室 和 雅虎 的 研究 人 员 组 成 
的 “贝尔 科 ” 队 也 在 顶尖 团队 之 列 ， 他 们 在 第 一 年 的 大 部 分 时 间 里 一 直 
领先 。 但 在 比赛 的 早期 ， 领 跑 者 的 位 置 经 党 发 生变 化 。 来 目 多 伦 多 大 
学 的 神经 网 络 研 究 人 员 一 度 名 列 前 茅 ， 他 们 发 表 了 一 篇 有 影响 力 的 论 
文 ， 包括 “贝尔 科 ” 队 在 内 的 团队 都 使 用 了 论文 中 的 模型 。 组 成 “ 娩 龙 星 
球 ” 队 的 三 位 普林斯顿 大 学 学 生 在 暑假 期 间 一 直 在 努力 挑战 “贝尔 
科 ” 队 。( 央 而 另 一 支 年 轻 的 新 贵 团队 ， 来 自 “地 心 引力 ” 队 的 两 名 匈牙利 
人 研究生， 那 时 正在 挑战 名 列 第 二 的 “ 灵 龙 星球 ” 队 。 


随后 ， 在 2007 年 10 月 21 日 ， 也 就 是 第 一 年 最 后 期 限 的 前 一 天 ， 和 情 
况 发 生 了 变化 。 一 直 徘 徊 在 第 二 和 第 三 的 两 支队 伍 一 一 “ 丈 龙 星球 ” 队 
和 “地 心 引力 ” 队 结 成 了 联盟 。 他 们 把 各 自 的 模型 组 合 在 一 起 ， 把 模型 
的 平均 分 提交 给 排行 榜 ， 突 然 之 间 ， 他 们 一 跃升 至 榜首 。“ 贝 尔 科 ” 队 
只 有 一 天 的 时 间 来 重新 夺回 进步 奖 。 虽 然 他 们 还 没有 意识 到 ， 但 这 也 
是 一 种 现象 的 开始 ， 而 这 种 现象 将 影响 随后 的 比赛 。 


1. Steve Lohr,“Netflix Competitors Learn the Power of  Teamwork,"New 
YorkTimes, July27,2009;Mackenzie,“Accounting for Taste.” 


6 团队 融合 : 网 飞 奖 的 局 家 


实用 主义 的 (形容词: 以 实际 的 而 非 理 论 上 的 考虑 为 基础 ， 理 
智 而 现实 地 处 理事 情 。 


混沌 (BW) : 复杂 系统 的 特性 ， 由 于 对 条 件 的 微小 变化 非常 敏 
感 ， 其 行为 不 可 预测 ， 以 致 表现 出 随机 性 。 


《牛津 英语 词典 》，2017 年 


缩小 竞争 者 之 间 的 差距 


网 飞 奖 的 第 一 年 充满 了 喧嚣 的 思想 和 模糊 的 进步 。 在 “贝尔 科 ” 队 
登 上 排行 榜 榜 首 之 前 ， 其 他 几 文 队伍 也 在 榜首 位 置 进 进 出 出 ， 而 在 社 
区 中 进行 的 一 系列 讨论 和 思想 交流 有 助 于 缩小 其 余 竞争 者 之 间 的 差 
距 。 其 中 一 些 讨论 是 在 专门 讨论 数据 控 据 的 学 术 会 议和 研讨 会 上 进行 
HJ; 另 一 个 讨论 场所 是 网 飞 奖 论坛 ， 这 是 网 飞 为 参赛 者 建立 的 在 线 社 
[X e 


网 飞 奖 论 坛 为 参赛 者 提供 了 一 个 非 正式 地 分 至 他 们 的 成 果 和 见解 
的 场所 。 比 赛 开 始 后 不 久 ， 论 坛 束 热 曾 起 来 。 正 如 一 位 赛事 组 织 者 所 


A 


除了 踊跃 提交 成 果 之 外 ， 参 赛 者 在 网 飞 奖 论坛 上 也 有 大 量 的 接 
触 ， 他 们 分 享 代码 和 编程 思路 、 额 外 的 数据 、 对 数据 中 发 现 的 模式 的 
见解 ， 甚 至 汇总 成 果 (以 及 合并 团队 ) 以 提高 算法 准确 性 ( 即 “ 混 
&" @ 


在 各 支队 伍 发 表 他 们 的 大 部 分 研究 成 果 之 前 ， 网 飞 同样 研究 了 论 
坛 上 的 评论 ， 以 找 出 哪些 方法 表现 良好 。 在 比赛 开始 后 不 到 一 年 的 时 
间 里 ， 网 飞 在 这 个 论坛 上 注意 到 了 顶级 团队 提交 的 成 果 中 普遍 存在 的 
两 个 关键 思想 : 一 是 对 矩阵 分 解 的 颇 有 影响 力 的 描述 ， 二 是 一 种 被 称 
为 模型 混合 的 方法 。( 时 


报纸 和 杂志 也 开始 讲述 现实 生活 中 一 些 非 正式 的 和 兼职 的 数据 科 
学 家 晚上 和 周末 在 家 工作 的 故事 。 一 位 参赛 者 是 48 尹 的 管理 咨询 师 ， 
拥有 心理 学 学 位 ， 正 在 考虑 十 否 要 获取 机 器 学 习 的 博士 学 位 。 在 比赛 
中 ， 他 以 “车 库 里 的 家 伙 ” 的 名 字 出 现 ， 尽 管 严格 来 讲 他 只 是 在 卧室 外 


工作 。( 同 此 后 不 久 ，《 纽 约 时 报 》 报 道 了 一 位 32 岁 的 4 个 孩子 的 父亲 
在 他 的 餐厅 饭桌 上 工作 的 故事 。 还 有 一 位 51 岁 的 “ 半 退 休 * 计 算 机 科学 
家 和 他 12 岁 和 13 岁 的 孩子 们 一 起 讨论 应 该 尝试 哪些 新 想法 的 故事 。 他 
们 建议 仔细 研究 电影 续集 ， 以 便 从 竞争 中 脱颖而出 。 舍 ) 


1. James Bennett and Stan Lanning,“The Netflix Prize,"Proceedings of the KDD Cup and 
Workshop,San Jose,CA,August12,2007. 


2. James Bennett and Stan Lanning,“The Netflix Prize,"Proceedings of the KDD Cup and 
Workshop,San Jose, CA, August12,2007. 


3. Jordan Ellenberg,“This Psychologist Might Outsmart the Math Brains Competing for the 
Netflix Prize,"Wired,February25,2008. 


4. Clive Thompson,“If You Liked This, You're Sure to Love That,’ New York Times 
Magazine,November21,2008. 


第 一 年 末 


在 第 一 年 比赛 的 最 后 儿 周 ， 由 AT&T 和 雅虎 的 研究 人 员 组 成 的 “由 
尔 科 ” 队 占 据 了 榜首 。 但 在 第 一 年 快 结束 的 时 候 ， 他 们 发 现 目 己 受 到 了 
第 二 名 和 第 三 名 的 挑战 ， 这 两 文 队伍 一 一 "地 心 引力 ” 队 和 “ 您 龙 星 
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就 在 第 一 年 结束 的 前 一 天 ， 排 名 第 二 和 第 三 的 两 支队 伍 合并 了 。 
合并 后 的 团队 自称 * 当 引力 和 尿 龙 联合 时 " 队 ， 他 们 将 各 自 的 预测 模型 
组 合 在 一 起 ， 把 两 种 模型 的 平均 分 提交 给 了 网 飞 ， 这 支 新 组 建 的 团队 
突然 跃升 至 榜首 。 亿 第 二 天 , “贝尔 科 ” 队 和 这 支 新 团队 争分夺秒 ， 疯 
狂 地 编写 和 调试 代码 。 从 技术 上 讲 ， 他 们 每 天 只 能 向 网 飞 提交 一 个 模 
型 ， 因 此 他 们 在 这 一 天 提交 的 最 终 成 果 依 然 算数 。“ 贝 尔 科 ” 队 成 功 地 
提交 了 一 份 勉 强 击败 “ 当 引 力 和 铠 龙 联合 时 ” 队 的 成 果 ， 它 比 Cinematch 
的 推荐 效率 高 出 8.43%， 比 竞争 对 手 高 出 0.059%“。 于 是 , “贝尔 科 ” 队 赢 
得 了 第 一 年 5 万 美元 的 进步 奖 ， 但 优势 不 是 很 大 。( 


为 了 拿 到 奖金 ,“ 贝 尔 科 ”* 队 需要 发 表 一 份 关于 他 们 算法 的 报告 。 
完成 报告 之 后 ， 他 们 的 秘密 就 公开 了 ， 每 个 人 都 能 看 到 ， 并 且 他 们 周 
围 仍 然 满 是 虎视 罗 蛇 的 竞争 者 。( 汪 更 糟糕 的 是 , “贝尔 科 ” 队 发 现 想 要 
超越 自己 的 成 果 变 得 越 来 越 困 难 。 第 一 年 , “贝尔 科 ” 队 以 平均 每 周 提 
高 0.16% 的 速度 接近 10% 的 目标 ， 第 二 年 却 平均 每 周 提高 0.02%。 他 们 
的 进展 几 近 停滞 。 


第 一 年 ， 当 “贝尔 科 ” 队 建立 起 他 们 模型 中 最 成 功 的 组 件 时 ， 他 们 
已 经 摘 下 了 大 部 分 容易 摘 到 的 果实 。 这 包括 基准 模型 一 -将 瘟 鬼 效应 
(用 来 描述 用 户 评 高 分 或 低 分 的 倾向 ) 和 E. 工 效应 〈 用 来 解释 电影 是 


好 是 坏 ， 而 不 管 是 谁 给 电影 打分 ) ， 以 及 用 来 处 理 终结 者 效应 (总结 
用 户 的 独特 偏好 ) 的 矩阵 分 解 模型 。 


第 二 年 ， 这 些 队 伍 面 临 着 所 谓 的 “大 人 物 拿破仑 问题 ">。 争 夺 网 飞 
奖 的 团队 发 现 ， 预 测 2004 年 的 另类 电影 《大 人 物 拿破仑 》 (Napoleon 
Dynamite) 对 不 同 观众 的 影响 极其 困难 。 (加 克 莱 夫 :汤普森 在 《纽约 时 
报 》 上 引用 了 一 位 参赛 者 的 话 ， 解 释 了 这 部 电影 读 来 如 此 大 挑战 的 原 
o 


原因 是 《大 人 物 拿破仑 》 非 党 奇怪 并 且 两 极 分 化 。 它 包含 了 许多 
调皮 的 、 讽 刺 性 的 幽默 ， 包 括 一 段 由 名 义 上 的 青少年 角色 表演 的 著名 
的 怪诞 舞蹈 ， 他 这 样 做 是 为 了 帮助 其 不 入 的 朋友 顾 得 学 生 会 选举 。 对 
于 这 种 古怪 的 娱乐 方式 ， 人 们 要 么 喜欢 ， 要 么 名 视 。 这 部 电影 在 网 飞 
数据 库 中 的 评分 已 经 超过 200 万 个 ， 而 且 评分 不 成 比例 地 集中 在 1 星 和 5 
Re 

预测 网 飞 用 户 是 否 会 喜欢 《大 人 物 拿破仑 》 的 难点 在 于 ， 这 既 抓 
住 了 一 切 推 荐 系统 的 核心 优势 ， 也 烘 露 了 其 核心 缺点 ， 个 性 化 推荐 只 
有 在 用 户 偏好 存在 元 余 的 情况 下 才能 奏效 。 如 采 一 部 电影 与 其 他 电影 
之 间 完 全 不 存在 元 余 信 息 ， 那 么 矩阵 分 解 或 其 他 方法 都 不 会 对 该 电影 
的 个 性 化 推荐 奏效 。( 思 这 并 不 意味 着 《大 人 物 拿 破 仑 》 没 有 宛 余 ， 但 
征 人 们 艾 试 了 很 多 方法 都 找 不 到 这 种 元 余 隐 藏 在 哪里 。 


这 感觉 就 像 评分 矩阵 是 一 条 深 毛 巾 ， 这 些 团 队 一 直 试 图 把 它 打 
干 ， 从 毛巾 里 搜集 珍贵 的 水 ， 再 把 水 盛 放 在 桶 里 。 他 们 一 直 在 努力 用 
某 一 种 方式 近 毛 巾 ， 现 在 是 时 候 展 开 毛 巾 ， 壬 试用 男 一 种 方式 近 它 
Y * 因此， 这 些 团 队 壬 试 了 一 些 不 同 的 方法 来 捕 提 终结 者 效应 ， 用 各 
种 各 样 的 方式 打 毛 巾 。 


有 一 种 模型 甚至 在 第 一 年 就 流行 起 来 了 了 ， 那 就 是 
由 “ML@UToronto” 队 的 研究 人 员 开 发 的 人 工 神 经 网 络 。 这 个 神经 网 络 


在 数学 上 非常 类 似 于 矩阵 分 解 ， 但 它 处 理 缺 失 评 分 的 方法 不 同 ， 并 且 
它 将 评分 视 为 离散 的 1、2、3、4、5， 而 不 是 从 1.0 到 5.0 的 实数 。 换 句 
话说 ， 它 拧 毛 巾 的 方式 与 矩阵 分 解 稍 有 不 同 。 


各 队 使 用 的 另 一 种 方法 是 搜索 彼此 类 似 的 电影 。 如 果 你 喜欢 某 部 
影 ， 比 如 《 灰 寻 女 》， 而 这 部 电影 和 你 从 未 评价 过 的 男 一 部 电影 
(比如 《了 睡 美人 》) 非常 相似 ， 那 么 这 些 方法 应 该 可 以 向 你 推荐 后 一 

部 电影 。 各 队 还 试图 找 出 哪些 用 户 是 类 似 的 。 如 有 果 你 和 怀俄明 州 的 一 
个 人 在 电影 评分 方面 很 类 似 ， 而 这 个 人 给 一 部 你 从 没 看 过 的 电影 CU 
如 《 回 到 未 来 》) 评分 很 高 ， 那 么 这 些 方法 也 应 该 会 同 你 推荐 这 部 电 
影 。 当 然 ， 让 这 些 方 法 奏效 的 记 加 在于， 它们 如 何 判 定 一 个 用 户 与 男 
一 个 用 户 “ 类 似 *。 没 有 单一 的 、 正 确 的 方法 可 以 做 到 这 一 点 ,但 是 各 
队 尽 了 最 大 的 努力 ， 在 他 们 的 程序 中 用 数学 函数 来 编码 他 们 的 直觉 。 


解决 < 大 人 物 拿 破 仑 问题 "的 另 一 个 诀窍 是 ， 你 不 仅 要 看 用 户 对 不 
同 电影 的 评分 ， 还 要 看 他 们 给 哪些 电影 评 过 分 。 例 如 ， 不 管 你 是 否 喜 
欢 电影 《星际 迷航 4》 〈 即 船员 们 回 到 现在 的 地 球 寻 找 鲸 的 那 一 部 ) ， 
事实 上 ， 哪 怕 你 只 对 一 部 《星际 迷航 》 电 影 进行 了 评分 ， 这 就 给 出 了 
很 多 有 关 你 倾向 于 喜欢 哪 种 类 型 电影 的 信息 。( 沁 团队 发 现 ， 通 过 整合 
这 些 隐 含 信息 ， 即 你 看 过 的 电影 ， 而 不 仅仅 是 你 对 它们 的 评分 ， 他 们 
可 以 将 相对 误差 降低 大 约 10% 。 这 是 一 个 很 小 但 值得 庆贺 的 进步 ， 因 
为 他 们 此 时 要 从 毛巾 里 挤 出 水 来 已 是 举步维艰 。 人 沁 
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随时 间 变 化 的 预测 


在 比赛 的 第 二 年 ， 这 些 团队 还 将 注意 力 转 向 了 数据 的 一 个 不 同 部 
4. 用 户 给 电影 评分 的 时 间 。 人 党 | 但 参赛 者 们 面临 着 一 个 问题 ， 即 网 飞 
的 评分 反映 了 一 个 不 断 变化 的 世界 ， 电 影 的 受 欢 迎 程度 会 随 着 时 间 的 
推移 而 变化 ， 人 们 自己 也 会 随 着 时 间 的 推移 而 改变 自己 的 偏好 。 如 果 
你 让 观众 给 一 部 电影 评分 ， 然 后 一 个 月 后 再 评价 一 次 ， 观 众 的 评分 会 
平均 变化 0.4 星 。( 岂 而且， 让 事情 变 得 更 加 困难 的 是 ， 观 众 倾向 于 在 周 
一 给 电影 评分 ， 而 不 是 周 五 。( 洁 ) 


“贝尔 科 ” 队 的 研究 人 员 解 决 了 这 个 问题 ， 让 模型 的 某 些 部 分 具有 
足够 的 灵活 性 ， 以 反映 他 们 对 评分 随时 间 变 化 的 观察 结果 。 他 们 在 基 
准 模型 中 重新 审视 了 电影 受 欢 迎 程度 的 偏 移 量 。 研 究 人 员 没 有 一 次 性 
衡量 一 部 电影 在 整个 时 期 内 的 受 欢迎 程度 ， 而 是 更 频繁 地 进行 测量 ， 
以 10 周 为 单位 对 评分 进行 分 类 。( 馈 


图 6.1 展 示 了 1999 年 上 映 的 电影 《黑客 帝国 》 (The Matrix) 的 平 
均 受 欢迎 程度 ， 我 们 将 它 分 为 10 周 的 时 间 间 隔 。 在 1999 年 上 映 后 的 两 
年 时 间 里 ，《 墨 客 带 国 》 的 受 欢 迎 程 度 逐 渐 下 降 。 它 的 续集 《墨客 斋 
国 2: 重 装 上 阵 》 (Matrix Reloaded) 于 2003 年 5 月 上 映 ， 这 或 许可 以 
解释 第 一 部 《墨客 帝国 》 在 2003 年 初 为 什么 人 气 飙 升 。 
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图 6.1 随时 间 推 移 ， 电 影 《 黑 客 帝 国 》 受 欢迎 程度 的 变化 


在 时 间 对 电影 评分 的 影响 方面 ， 更 大 的 挑战 在 于 观众 自身 。 有 时 
候 ， 用 户 会 一 次 给 多 部 电影 打分 ， 如 果 用 户 打 分 时 的 心情 特别 好 或 特 
别 坏 ， 那 些 * 爆 发 "就 可 能 会 发 生 。 还 有 一 些 时 候 ， 家 庭 中 的 主要 网 飞 
用 户 发 生 了 变化 ， 例 如 一 个 少年 看 网 飞 电影 的 时 间 开 始 超过 父母 D 
尔 科 ” 队 解决 这 一 问题 的 方法 是 ， 假 设 用 户 的 偏好 可 能 会 随 着 时 间 的 推 
移 逐 渐 向 一 个 固定 的 方向 转变 ， 同 时 假设 他 们 在 某 一 天 的 评分 可 能 会 
比 这 种 渐变 的 趋势 所 瞳 示 的 评分 略 高 或 略 低 。( 轩 


其 他 情况 也 会 让 数据 严重 扭曲 。“ 贝 尔 科 ” 队 注 意 到 ， 网 飞 用 户 的 
评分 标准 可 能 随时 间 的 推移 而 趋 于 温和 ， 就 好 像 他 们 对 给 电影 评分 或 
多 或 少 变 得 不 感 兴趣 一 样 。 这 并 不 是 说 他 们 的 平均 评分 会 变 得 更 高 或 
更 低 (尽管 这 种 情况 也 发 生 过 ) 。 这 是 因为 ， 随 着 时 间 的 推移 ， 他 们 
也 或 多 或 少 变 得 极端 。 和 先前 一 样 , “贝尔 科 ” 队 捕捉 到 这 种 效应 的 方 
法 是 ， 假 设 用 户 在 某 一 天 集中 对 多 部 电影 进行 评分 ， 而 当时 他 们 的 评 
分 标准 特别 温和 或 极端 °C) 

这 些 趋势 很 难 解释 。“ 实 用 主义 理论 ” 队 的 成 员 ( 即 我 们 在 上 一 章 


中 简要 介绍 过 的 “两 个 毫 无 头绪 的 家 伙 ”) 注意 到 ， 用 户 在 某 一 天 的 评 
分 数量 十 预测 电影 好 坏 的 一 个 有 用 的 指标 。 


“实用 主义 理论 ” 队 的 观察 结果 令 人 困惑 ， 因 为 这 不 仅仅 是 用 户 在 
批量 评分 时 出 现 的 异常 现象 ， 那 部 分 已 经 是 老生 常 谈 了 。 这 是 电影 评 
分 的 一 个 特点 。 有 些 电影 在 批量 评分 中 得 到 的 分 数 往往 高 于 预期 ， 而 
有 些 电影 则 往往 低 于 预期 。 当 “贝尔 科 ” 队 最 终 从 “实用 主义 理论 ” 队 那 
里 了 解 到 这 个 结果 时 ， 他 们 假设 用 户 对 电影 的 记忆 是 不 对 称 的 。 有 些 
电影 优秀 或 差劲 到 让 人 难以 忘却 ， 而 有 些 电 影 则 只 是 让 人 有 点 印象 而 
已 。 当 用 户 对 电影 进行 批量 评分 时 ， 往 往 也 会 评价 他 们 很 久 以 前 看 过 
的 电影 ， 特 别 是 那些 令 人 难忘 的 好 电影 或 坏 电 影 。 那 些 喜 欢 或 讨厌 某 
部 令 人 难忘 的 好 电影 或 坏 电 影 的 人 会 在 很 长 一 段 时 间 后 仍然 记得 它 ， 
并 很 可 能 在 批量 评分 时 给 它 打分 ， 而 那些 对 它 没有 强烈 感觉 的 人 在 下 
一 次 批量 评分 时 就 会 忘记 它 。( 时 


网 飞 奖 的 数据 集 里 充满 了 像 这 样 的 隐藏 的 宝石 。 下 面 古 男 一 个 例 
du 一 个 名 为 “大 混沌 ?的 团队 注意 到 ， 电 影 名 中 的 字母 数量 可 以 用 来 
预测 用 户 是 否 喜欢 它 〈 效 果 不 是 很 明显 ， 但 影响 确实 存在 ) 。 随 着 比 
赛 的 进行 ， 各 文 队伍 一 点 一 点 地 挖 抉 出 这 些 宝石 。 
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T: Chabbert,Progress Prize2008. 


过 度 拟 合 


由 于 网 飞 为 参赛 者 提供 了 海量 数据 ， 各 文 队 伍 可 以 在 各 目的 模型 
中 添加 符合 他 们 直 狗 的 参数 ， 以 此 假设 模型 的 某 些 部 分 是 存在 的 。 如 
果 一 个 团队 有 预感 ， 认 为 电影 的 流行 程度 可 以 用 来 预测 用 户 的 评分 
(的 确 如 此 ) ， 那 么 他 们 只 需要 在 模型 中 为 每 部 电影 添加 一 个 新 参数 
来 < 吸收 "这些 信 息 。( 轩 如 果 团 队 预 感 用 户 可 能 会 在 他 们 的 评分 上 有 所 
偏颇 的确 如 此 ) ， 那 么 他 们 也 只 需要 在 模型 中 为 每 个 用 户 添 加 一 个 
新 的 参数 来 “吸收 ”这 些 信 息 。 这 两 个 参数 便 构成 了 他 们 的 基准 模型 。 
当 一 个 团队 还 想 假 设 电影 的 流行 程度 会 随时 间 的 推移 而 改变 ， 用 户 的 
偏好 也 会 随时 间 的 推移 而 改变 时 ， 他 们 束 会 在 模型 中 为 这 两 种 情况 分 
别 添加 参数 。 


各 文 队伍 在 使 用 这 些 参数 时 所 面临 的 主要 风险 在 于 ， 他 们 在 模型 
中 添加 的 灵活 性 是 否 超出 了 他 们 所 拥有 的 数据 量 所 能 承载 的 范围 ? 如 
果 他 们 添加 了 太 多 的 参数 ， 束 会 有 “过 度 拟 合 ” 数 据 集 的 风险 。 过 度 拟 
合意 味 痢 他 们 在 预测 评分 方面 的 出 色 表 现 可 能 只 是 海 市 厦 楼 。 他 们 可 
能 认为 目 己 预测 的 评分 很 准 ， 因 为 他 们 预测 的 误差 看 上 去 很 小 ， 而 实 
际 上 这 古 因 为 他 们 要 处 理 的 参数 太 多 一 一 本 质 上 十 有 太 多 旋钮 要 调 ， 
这 使 其 模型 看 起 来 比 实际 情况 要 好 。 如 有 果 过 度 拟 合 数 据 集 ， 那 么 他 们 
表面 上 很 准确 的 预测 可 能 无 法 移植 到 网 飞 用 来 评估 参赛 者 的 秘密 数据 
Seo HON, “贝尔 科 ” 队 可 以 在 其 模型 中 为 其 数据 集中 的 每 个 “用 户 一 
电影 ”匹配 添加 一 个 参数 ， 让 模型 可 以 精确 地 解释 电影 数据 集中 的 评 
分 。( 回 但是， 这 对 于 预测 他 们 以 前 从 未 见 过 的 “用 户 一 电影 ”匹配 的 评 
分 到 无 用 处 。 幸 运 的 是 ， 参 赛 痢 很 容易 注意 到 目 己 是 否 过 度 拟 合 ， 
为 他 们 可 以 保留 自己 数据 集 的 一 小 部 分 (网 飞 为 此 提供 了 一 个 样 


ZR) ， 并 对 其 进行 测试 ， 以 确保 自己 没有 过 度 拟 合 。 当 我 们 在 接 下 来 
的 几 章 中 讨论 神经 网 络 时 ， 会 看 到 更 多 处 理 过 度 拟 合 的 方法 。 


1. 


2. 


请 注意 ， 影 片 的 “平均 值 "可 能 与 线性 模型 中 的 系数 不 同 ， 
部 分 扭曲 。 
除了 那些 不 止 一 次 给 电影 评分 的 用 户 。 


因为 它 会 被 模型 中 的 ] 


其 他 


模型 混合 


网 飞 奖 的 进展 和 第 一 年 的 结局 让 参赛 者 们 有 瞄 目 结 碧 。“ 贝 尔 科 ” 队 
在 社区 上 发 表 了 他 们 的 工作 成 果 后 ， 同 行 们 仔细 人 研究 了 报告 ， 了 阅读 了 
他 们 的 基准 模型 、 和 矩阵 分 解 模型 以 及 使 用 的 神经 网 络 。 他 们 还 了 解 
了 “贝尔 科 ” 队 把 各 种 不 同 版 本 的 模型 混合 在 一 起 的 方法 。 其 他 参赛 者 
并 不 会 因 “ 贝 尔 科 ” 队 一 直 在 混合 模型 而 感到 奇怪 ， 这 并 不 是 什么 秘 
密 ， 而 且 混 合 模 型 已 经 在 网 络 论坛 上 被 讨论 过 了 。 但 是 现在 他 们 根 
据 * 贝 尔 科 ” 队 的 论文 可 以 肯定 的 是 ， 混 合 模 型 是 有 效 的 。 此 外 ， 当 “地 
心 引力 ” 队 和 “ 怒 龙 星球 ” 队 合 并 时 ， 他 们 将 两 个 独立 模型 组 合 在 一 起 ， 
把 模型 的 平均 分 提交 给 排行 榜 ， 此 时 就 隐 作 地 使 用 了 模型 混合 。 


当 “ 贝 尔 科 ” 队 人 研究 如 何 预测 评分 时 ， 他 们 需要 做 出 许多 关于 模型 
中 应 该 包 人 哪些 内 容 的 决定 。 他 们 在 拟 含 矩阵 分 解 模型 的 时 候 需 要 回 
答 一 些 问题 ， 例 如， 应 该 用 多 少 种 类 型 来 总 结 每 部 电影 ? 是否 应 该 包 
含 隐 合 的 评分 信息 ? 当 他 们 为 电影 拟 合 类 似 电影 的 模型 时 ， 他 们 需要 
决定 两 部 电影 类 似 意 味 着 什么 。 他 们 可 以 竹 试 一 些 有 根据 的 猜测 ， 并 
用 数据 验证 猜测 ， 但 是 他 们 要 做 出 很 多 不 同 的 决定 。 如 采 他 们 试图 调 
整 所 有 参数 ， 为 所 有 猜测 找到 完美 设置 ， 那 么 很 可 能 会 过 度 拟 合 。 


相反 , “贝尔 科 ” 队 创建 了 许多 具有 不 同 参数 设置 的 模型 ， 然 后 对 
它们 进行 平均 。 为 了 赢得 第 一 个 进步 奖 ， 他 们 对 107 个 不 同 的 模型 做 了 
平均 。“ 贝 尔 科 *” 队 需要 把 百 余 个 不 同 的 模型 结合 起 来 吗 ? 或 许 不 需 
要 。 他 们 注意 到 ， 使 用 这 么 多 模型 在 某 种 程度 上 是 为 了 方便 。 他 们 已 
经 从 早期 的 实验 中 得 到 了 这 些 模 型 ， 而 且 把 它们 保留 在 最 终 的 混合 模 
型 中 并 没有 什么 坏处 ， 所 以 为 什么 不 用 呢 ? 但 是 他 们 发 现 ， 只 需 大 约 
50 种 模型 ， 他 们 就 能 得 到 同样 好 或 更 好 的 结果 。( 周 


BRAM KR iets Em OUR AP RUE, AT ARABS 
XO 他们 的 107 个 模型 中 哪 一 个 最 好 ? 团队 成 员 之 一 耶 胡 达 : 科 伦 
(Yehuda Koren) 列举 了 一 些 优点 : 


模型 宴 合 可 以 让 我 们 把 注意 力 集中 在 相对 倘 单 的 、 易 于 编程 和 运 
行 的 模型 上 。 其 结 采 对 于 避免 编程 错误 和 过 度 拟 合 也 更 加 有 效 .…… 


我 不 会 只 推荐 其 中 某 一 个 预测 因子 。 你 至 少 希 望 在 多 个 尺度 (本 
地 + 区 域 ) 上 解释 数据 o © 


换言之 ， 混 合 模型 对 实用 性 和 建 模 都 有 好 处 。 使 用 许多 简单 模型 
的 平均 分 是 实用 的 ， 因 为 稍 单 模型 易于 编程 且 不 易 出 错 。 如 采 使 用 很 
多 不 同 的 模型 ， 那 么 你 可 以 在 不 同 的 “粒度 "下 捕捉 数据 集 里 的 不 确定 
性 。 例 如 ， 如 果 你 正在 考虑 在 矩阵 分 解 模型 中 使 用 10 种 还 是 100 种 电影 
类 型 ， 那 么 你 可 以 简单 地 同时 使 用 这 两 种 方式 。10 种 电影 类 型 的 模型 
可 以 捕捉 每 个 用 户 电影 俩 好 的 高 层次 要 点 ， 而 100 种 电影 类 型 的 模型 可 
以 捕 提 到 用 户 偏 好 的 细微 差别 。 


这 种 模型 平均 的 思想 也 得 到 了 丰富 的 理论 结果 的 支持 ， 而 且 这 种 
直觉 很 容易 理解 。 假 设 你 在 股票 市 场 投资 ， 你 正在 决定 是 把 所 有 的 钱 
都 投 到 平均 年 回报 率 为 12% 的 股票 A 上 ， 还 是 投资 100 只 不 同 的 股票 ， 
每 只 股票 的 平均 年 回报 率 为 12%。 如 果 所 有 这 些 股票 的 收益 结果 都 有 
同样 的 不 确定 性 ， 那 么 你 最 好 把 资金 平分 给 100 只 股票 。( 电 为 什么 ? 
因为 你 仍然 可 以 期 望 平均 每 年 获得 12% 的 收益 ， 但 你 对 结果 的 不 确定 
性 会 降低 ， 一 些 回 报 率 低 于 12% 的 股票 将 被 回报 率 超过 12% 的 股票 抵 
消 。( 过 “贝尔 科 ” 队 的 107 个 模型 每 一 个 都 经 过 了 “训练 >， 可 以 对 用 户 的 
电影 评分 做 出 不 同 的 预测 。 因 此 ， 通 过 混合 这 107 个 模型 ，“ 贝 尔 科 ” 队 
的 新 预测 器 仍然 可 以 做 出 同样 的 预测 ， 但 不 确定 性 更 小 。 


但 你 可 能 会 说 ， 等 等 。 我 们 看 到 ，2008 年 和 2009 年 的 金融 危机 发 
生 时 ， 整 个 股市 都 下 跌 了 。 投 资 100 只 股票 不 会 有 多 少 保 障 ， 因 此 这 


种 “不 确定 性 更 小 ”的 说 法 并 不 正确 。 没 错 ， 这 正 是 模型 混合 适用 于 何 
种 场合 的 核心 所 在 。 大 多 数 股票 是 相互 天 联 的 ， 当 模型 不 相关 时 ， 模 
型 混合 效果 很 好 。 如 来 一 个 模型 预测 网 飞 的 评分 过 高 ， 那 么 其 他 模型 
应 该 有 助 于 缓和 这 种 结果 ， 而 不 是 加 强 这 种 结 采 。 当 模型 不 相关 时 , 
这 种 缓和 效果 更 容易 出 现 。 


通过 研究 “提升 ”(boosting) 算法 ， 我 们 可 以 进一步 了 解 模 型 混合 
的 效果 , “提升 "算法 是 顶级 团队 在 提交 成 果 时 用 来 混合 模型 的 方法 之 
.。“ 提 升 " 算 法 背后 的 直觉 是 ， 通 过 组 合 许多 弱 模 型 (每 个 模型 可 能 
都 不 太 好 ， 但 至 少 都 有 点 好 处 ) ， 我 们 最 终 可 以 得 到 一 个 比 所 有 原始 
模型 都 更 加 强大 的 模型 。 人 所 ) 


为 了 将 “提升 ”算法 应 用 到 类 似 网 飞 交 这样 的 问题 上 ， 我 们 首先 要 
训练 一 个 非常 简单 的 模型 来 预测 电影 的 评分 。 它 的 预测 不 会 很 完美 ， 
所 以 我 们 选 出 模型 的 错误 评分 ， 并 放大 它们 。 也 束 是 说 ， 我 们 给 予 它 
们 比 其 他 评分 更 大 的 权重 ， 因 为 我 们 希望 分 类 器 下 次 更 多 地 关注 它 
们 。 然 后 我 们 用 这 些 调整 后 的 权重 拟 合 第 二 个 模型 。 接 下 来 ， 我 们 一 
次 又 一 次 地 重复 这 个 过 程 ， 放 大 错误 的 评分 ， 每 次 都 重新 构造 一 个 新 
模型 。 完 成 的 时 候 ， 我 们 会 很 容易 地 训练 出 几 十 个 、 几 百 个 ， 甚 至 几 
干 个 模型 。 如 果 我 们 用 合适 的 权重 对 这 些 模型 进行 平均 ， 结 果 将 是 一 
个 混合 的 庞大 模型 ， 它 的 效果 比 任何 一 个 模型 都 要 好 。 
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第 二 年 


随 着 第 二 年 的 到 来 ， 其 他 几 支 队伍 开始 在 排行 榜 上 对 “贝尔 科 ” 队 
造成 威胁 。“ 当 引力 和 恐龙 联合 时 ” 队 一 直 紧 随 其 后 ， 但 是 在 第 一 个 夏 
天 之 后 ， 来 自 * 恐 龙 星球 " 队 的 三 名 普林斯顿 大 学 的 学 生发 现 他 们 要 忙 
于 研究 生 学 习 和 工作 。 人 淹 随 着 第 二 年 的 比赛 临近 结束 ， 另 一 支 名 
n] Aag t] ERE E ei IE DU REP, 。 


“大 混沌 * 队 对 他 们 混合 模型 的 方式 开展 了 大 量 实验 。 第 一 年 ， 他 
们 简单 地 使 用 加 权 平 均 来 组 合 模型 。 第 二 年 ， 他 们 发 现 神经 网 络 在 组 
合 模型 时 特别 有 用 “。 与 简单 地 采用 平均 值 相 比 ， 神 经 网 络 可 以 学 习 一 
种 更 复杂 的 方法 来 组 合 简单 的 模型 。 


但 是 ， 随 着 第 二 年 的 继续 ， 所 有 顶级 团队 都 很 难 取得 更 大 的 进 
步 。 网 飞 奖 组 织 者 开始 怀疑 参赛 者 是 否 能 取得 足够 大 的 进步 来 启 得 奖 
项 。( 冉 随 着 第 二 个 进步 奖 最 后 期 限 的 临近 ， 情 况 变 得 更 加 严峻 。 对 任 
何 一 文 想 要 获得 第 二 个 5 万 美元 进步 奖 的 团队 而 言 ， 他 们 需要 比 前 一 年 
8.43% 的 进步 高 出 整整 1 个 百分点 。“ 贝 尔 科 ” 队 和 “大 混沌 ? 队 位 列 前 两 
名 ， 但 以 他 们 的 进步 速度 来 看 ， 可 能 需要 一 个 多 月 的 时 间 才 能 达到 
9.4399] E d. » © 


最 后 , “贝尔 科 ” 队 和 “大 混沌 * 队 引发 了 男 一 场 混乱 他们 合并 成 
了 一 个 团队 。 他 们 决定 把 合并 后 的 团队 命名 为 “大 混沌 中 的 贝尔 科 ”， 
其 成 果 比 Cinematch 的 推荐 效率 高 出 了 9.44%。 这 已 经 微微 越过 了 他 们 
获得 第 二 个 进步 奖 的 门槛 ， 虽 然 距离 10% 的 目标 还 相距 甚 远 ， 但 这 足 
以 让 新 团队 赢得 5 万 美元 的 奖金 。 


“大 混沌 中 的 贝尔 科 ” 队 的 5 名 成 员 终于 可 以 停 下 来 ， 集 体 松口 气 
了 ， 但 他 们 不 能 休 筷 太 久 。 如 有 果 第 三 年 还 是 没有 团队 能 达到 10% 的 目 
标 ， 那 么 任何 人 都 没有 资格 获得 进步 奖 。 比 赛会 吏 此 结束 吗 ? 此 时 ， 
空气 中 也 弥漫 着 对 另 一 个 话题 的 猜测 : 接 下 来 哪些 团队 会 合并 ? 比赛 
进入 了 一 个 新 阶段 ， 各 文 队 伍 的 注意 力 开 始 从 预测 评分 转向 为 团队 寻 
找 最 佳 的 合并 策略 。 
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最 后 一 年 


最 后 一 年 里 ,“ 大 混沌 中 的 贝尔 科 ” 队 继续 名 列 榜首 ， 而 “ 当 引 力 和 
您 龙 联合 时 ” 队 始 终 紧 随 其 后 。 但 到 那 时 ， 男 一 支队 伍 开 始 出 现在 排行 
榜 上 ， 它 就 是 “实用 主义 理论 ”* 队 ， 即 我 们 已 经 见 过 儿 次 的 那个 自称 “两 
SETA AN BAK IBAA ^. RE BAIT IX MUTA AE 
但 他 们 发 现 网 飞 社区 非常 适合 学 习 ， 他 们 仔细 人 研究 了 其 他 参赛 者 的 方 
法 。 当 “大 混沌 中 的 贝尔 科 ” 队 发 表 人 研究 结果 时 ,“ 实 用 主义 理论 ” 队 的 
成 员 立 即 下 载 并 仔细 人 研究 论文 。 随 着 时 间 的 推移 , “实用 主义 理论 ” 队 
孜孜 不 众 地 工作 ， 在 官方 排行 榜 上 的 名 次 不 断 攀 升 。 


如 果 说 “贝尔 科 ” 队 强调 的 是 协同 过 滤 理 论 ,“ 大 混沌 ” 队 强 调 的 是 
模型 混合 ， 那 么 “实用 主义 理论 ” 队 的 重点 束 是 他 们 投入 的 大 量 努力 和 
获得 的 成 果 。 在 他 们 发 表 的 一 篇 天 于 其 方法 的 论文 中 ， 我 从 他 们 的 混 
合 模 型 中 统计 出 了 707 种 不 同 的 模型 。 虽 然 这 对 网 飞 想 要 实现 的 系统 
言 是 不 切实 际 的 ， 但 “实用 主义 理论 ” 队 对 此 并 不 关心 。 他 们 关心 的 是 
尽 可 能 准确 地 预测 评分 。 他 们 在 一 篇 论文 中 概述 了 这 一 理念 (加 粗 部 
分 是 作者 标注 的 ) : 


本 文中 介绍 的 解决 方案 专门 用 于 构建 一 个 能 够 以 最 高 的 准确 度 预 
测 用 户 评分 的 系统 .…… 该 解决 方案 是 基于 大 量 的 模型 和 预测 善 的 ， 这 
些 模 型 和 预测 器 作为 商业 推荐 系统 的 一 部 分 并 不 实用 。 然 而 ， 这 是 竞 
赛 的 性 质 和 目标 导致 的 ， 这 个 目标 就 是 ， 不 异 一 切 代 价 获得 尽 可 能 
高 的 准确 度 ， 完 全 不 考虑 解决 方案 的 复杂 性 和 执行 性 能 。 号 

换言之 ,“ 实 用 主义 理论 ” 队 之 所 以 开发 了 一 种 实施 起 来 不 切实 际 


的 解决 方案 ， 正 是 因为 他 们 务实 。“ 大 混沌 中 的 贝尔 科 ? 队 看 到 了 他 们 
的 男 一 个 特点 。 最 初 的 “贝尔 科 ” 队 成 员 克 里 斯 - 活 林 斯 基 解 释 说 ， 他 和 
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个 原因 ,“ 实 用 主义 理论 ” 队 也 令 “ 大 混沌 中 的 贝尔 科 ” 队 感到 担忧 。 


比赛 后 期 ， 社 区 的 焦点 已 经 从 优化 和 温 合 各 队 的 模型 转变 成 优化 
团队 。 由 于 每 个 团队 在 改进 他 们 的 模型 时 都 面临 着 同样 的 困难 ， 比 赛 
的 基调 开始 上 暗示 这 些 团队 将 会 继续 合并 ， 以 达到 10% 的 目标 。 


“大 混 穗 中 的 贝尔 科 ” 队 注意 到 ， 那 个 无 所 县 惧 的 加 拿 大 二 人 组 “ 实 
用 主义 理论 ? 队 是 其 余 队伍 的 首要 “合并 目标 ”。 如 采 另 一 文 队伍 选择 了 
他 们 ， 那 么 这 文莉 队伍 很 可 能 会 成 为 一 个 斑 重 的 威胁 。“ 大 混 羯 中 的 由 
尔 科 ” 队 是 否 应 该 党 试 与 “实用 主义 理论 ? 队 合 并 ? 或 许 是 的 , “大 混沌 
中 的 贝尔 科 ” 队 也 在 与 其 他 团队 进行 秘密 讨论 ， 或 许 还 有 更 好 的 团队 可 
以 合并 ， 比 如 “ 当 引 力 和 娩 龙 联合 时 ” 队 ， 那 个 由 刚 从 晋 林 斯 顿 大 学 毕 
业 、 进 入 工业 和 研究 生 院 的 三 个 人 与 匈牙利 研究 生 合 并 成 的 队伍 。 


“大 混沌 中 的 贝尔 科 ” 队 需要 采取 行动 ， 而 且 动作 要 快 。 大 约 在 这 
个 时 候 ,“ 当 引力 和 愁 龙 联合 时 ? 队 成 立 了 一 个 名 为 "大奖 队 ” 的 新 团 
队 。 这 文 新 团队 邀请 任何 人 加 入 ， 他 们 愿意 提供 100 万 美元 奖金 的 一 小 
部 分 ， 比 例 取决 于 新 来 者 对 胜利 所 做 出 的 贡献 。 这 让 “大 温 沌 中 的 贝尔 
科 ” 队 感到 了 深 深 的 恐惧 ， 因 为 如 果 像 “实用 主义 理论 ” 队 这 样 的 团队 加 
入 了 “大 奖 队 ”， 那 么 他 们 的 比赛 可 能 很 快 束 要 结束 了 。 


最 后 ,“ 大 混沌 中 的 贝尔 科 ” 队 决定 与 “实用 主义 理论 ” 队 合 并 ， 组 
成 新 的 团队 “贝尔 科 的 实用 主义 混沌 ? 队 (你 可 以 在 图 6.2 中 查看 领先 团 
队 的 合并 过 程 ) 。 在 合并 之 前 , “大 混沌 中 的 贝尔 科 ” 队 兽 与 “实用 主义 
理论 ” 队 以 及 其 他 团队 秘密 讨论 过 一 段 时 间 。 当 “贝尔 科 的 实用 主义 混 
沌 *” 队 提交 其 组 合 模 型 时 ， 他 们 领先 Cinematch 推 荐 效率 的 优势 达到 了 
10.05%， 超 过 了 10% 的 门槛 。 


但 比赛 还 没有 结束 。 网 飞 的 规则 规定 ， 一 旦 有 一 支队 伍 率先 突破 
10% 的 门 酸 ， 束 会 开始 30 天 的 “最 后 通 陈 ”。 当 这 段 时 间 结 束 时 ， 网 飞 
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小 ， 以 此 决定 获胜 者 。 对 这 个 双重 秘密 数据 集 的 预测 分 数 将 精确 到 小 
数 点 后 第 4 位 ， 如 采 出 现 平 局 ， 束 根据 提交 时 间 的 先后 决定 胜 负 。 


剩 下 的 队伍 还 有 一 个 月 的 时 间 迎 头 赶 上 。 团 队 的 合并 仿佛 沸水 翻 
腾 的 水 泡 ， 水 泡 次 出 后 变 成 了 绝望 的 泡沫 。 包 括 “ 大 奖 队 ”在 内 的 其 他 
主要 团队 促成 了 一 项 交易 ， 成 立 了 一 个 名 为 “集成 ” 队 的 大 型 联盟 ， 由 
— o 机 器 学 习 中 的 “集成 ”就 古 混 合 不 同 模 型 的 男 一 个 说 
法 。 


“集成 ? 队 的 成 员 在 内 部 讨论 了 他 们 最 后 一 个 月 的 策略 : 他们 是 否 
应 该 等 到 最 后 一 分 钟 ， 然 后 提交 他 们 的 混合 模型 ? 还 是 应 该 尽早 提交 
f Hye? 述 交 可 以 使 他 们 的 存在 成 为 一 个 秘密 ， 并 让 “贝尔 科 的 
实用 主义 混沌 ” 队 大 吃 一 惊 。 但是， 提前 提交 可 以 让 他 们 避免 所 有 最 后 
一 刻 可 能 出 现 的 致命 失误 。 最 终 ， 他 们 投票 决定 将 “集成 ? 队 的 存在 保 
密 ， 并 在 截止 日 期 的 前 一 天 作为 一 个 团队 提交 了 他 们 的 第 一 次 成 采 。 
当 那 一 天 到 来 的 时 候 ， 他 们 以 “和 集成” 队 的 名 义 提交 了 模型 ， 成 绩 为 
10.09%， 钢 强 击败 了 “贝尔 科 的 实用 主义 混沌 * 队 ， 当 时 后 者 的 成 绩 是 
10.08%。 在 最 后 期 限 前 24 分 钟 ,，“ 贝 尔 科 的 实用 主义 混沌 ”" 队 再 次 提交 
成 果 ， 成 绩 也 十 10.09%。 然 后 ， 在 最 后 期 限 前 4 分 钟 ，“ 集 成 ”* 队 又 提交 
了 一 个 成 绩 达 到 10.1% 的 模型 。 比 赛 结束 了 ， 网 飞 需要 在 他 们 的 双重 
保密 数据 集 上 评估 这 些 模 型 。 


在 双重 保密 数据 集 上 验证 之 后 , “贝尔 科 的 实用 主义 混沌 " 队 和 “ 集 
成 * 队 的 最 终 成 绩 在 小 数 点 后 第 4 位 仍然 持平 ， 根 据 网 飞 的 规则 ， 他 们 
打 成 了 平手 ， 要 根据 提交 时 间 决 定 胜 负 。“ 贝 尔 科 的 实用 主义 混沌 " 队 
早 于 “集成 " 队 20 分 钟 提交 了 模型 ， 因 此 为 期 三 年 的 比赛 结束 了 。“ 贝 尔 
科 的 实用 主义 混沌 * 队 赢得 了 100 万 美元 奖金 © 
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图 6.2 这 张 图 展示 了 各 支队 伍 向 网 飞 奖 迈进 的 过 程 。 最 终 赢得 比赛 的 是 “贝尔 科 的 实用 主义 混 
沌 ? 队 


1. Thompson, “If You Liked This, You're Sure to Love That.” 


2. Martin Piotte and Martin Chabbert,"The Pragmatic Theory Solution to the Netflix Grand 
Prize,” Technical Report, Pragmatic Theory,Inc.,Canada,2009. 


3. Mackenzie,“Accounting for Taste.” 


4 ”在 颁奖 典礼 上 ， 网 飞 透 露 ， 两 文 队伍 的 得 分 在 小 数 点 后 第 6 位 依然 持平 ， 不 过 事实 
上 ,“ 贝 尔 科 的 实用 主义 混沌 * 队 的 预测 确实 上 略 胜 一 筹 。 


赛 后 


虽然 决赛 队伍 的 表现 令 人 印象 深刻 ， 但 网 飞 从 未 实施 “贝尔 科 的 实 
用 主义 混沌 ”* 队 和 “集成 ” 队 提 交 的 最 终 模 型 。 一 些 人 显然 对 此 感到 不 
安 ， 甚 至 称 网 飞 痰 是 失败 的 。 尽 管 网 飞 试图 匿名 化 他 们 的 数据 集 ， 但 
一 组 研究 人 员 指 出 ， 从 理论 上 讲 ， 这 些 数据 集 暴 露 了 用 户 的 隐私 ， 而 
且 这 些 说 法 被 媒体 广 沁 曲 解 。 结 采 ， 网 飞 撤 回 了 他 们 公布 的 数据 集 ， 
并 试图 请 除数 据 集 的 所 有 痕迹 ， 一 名 参赛 者 称 之 为 "该死 的 耻辱 ”。 


除 此 之 外 ， 这 次 竞赛 从 很 多 方面 看 都 是 成 功 的。 首先 ， 网 飞 采 纳 
了 竞赛 中 的 一 些 想 法 。 他 们 发 现 ， 参 赛 队伍 在 第 一 年 使 用 的 两 种 方法 
一 一 矩阵 分 解 和 “MLOUToronto” 队 开发 的 神经 网 络 ， 对 网 飞 目 己 的 算 
法 有 显著 的 改进 ， 仪 这 两 项 就 使 Cinematch 的 推荐 效率 提高 了 7.6%。 网 
飞 支付 了 两 次 5 万 美元 的 进步 奖 和 100 万 美元 的 大 奖 ， 作 为 回报 ， 他 们 
得 到 了 世界 级 专家 们 数 千 小 时 的 前 沿 研究 成 果 ， 同 时 也 在 紧张 的 人 力 
资源 市 场 中 得 到 了 接触 这 类 人 才 的 机 会 。 乌 


或 许 最 重要 的 是 ， 网 飞 还 得 到 了 强 有 力 的 证 据 ， 证 明 精 力 的 投入 
不 应 该 超过 某 个 限度 。 他 们 从 参赛 者 身上 看 到 自己 应 该 从 哪里 开始 其 
待 回报 递减 。 与 此 同时 ， 他 们 也 看 到 自己 的 业务 更 多 地 朝 在 线 流 媒体 
视频 的 方向 发 展 ， 而 远离 DVD 租赁 。 虽 然 推 荐 引擎 仍 将 是 其 新 产品 的 
一 个 重要 特征 ， 但 他 们 还 有 其 他 事情 要 考虑 © 


网 飞 炎 对 研究 型 社区 而 言 也 是 一 次 成 功 。 昌 然 DARPA 无 人 车 挑战 
赛 收 到 了 数 百 个 参赛 成 果 ， 但 网 飞 奖 收 到 了 数 万 个 。( 电 在 技术 方面 ， 
苋 赛 根据 经 验 将 矩阵 分 解 和 模型 平均 确定 为 推荐 系统 的 最 佳 方法 。 虽 


然 这 些 思想 已 经 存在 了 很 长 一 段 时 间 ， 但 竞赛 通过 提供 客观 和 公开 的 
证 据 证 明了 它们 的 表现 ， 并 帮助 宜 传 了 这 些 思 想 。 


1. Xavier Amatriain and Justin Basilico,“Netflix Recommendations:Beyond the5Stars,”The 
Netflix Tech Blog.Netflix, April6,2012,accessed 
March4,2017,http://techblog.netflix.com/2012/04/netflix-recommendations-beyond5- 
stars.html. 

2. Amatriain and Basilico, Netflix Recommendations." 

3. 这 种 差异 在 很 大 程度 上 可 能 是 因为 ， 参 与 网 飞 奖 的 竞争 只 需要 少量 的 资金 投入 ， 基 


本 上 只 需要 一 个 桌面 工作 站 ， 而 开发 自动 芍 驶 汽车 的 团队 所 需要 的 ; 
数 十 万 甚至 数 百 万 美元 。 


7 ”用 关 励 教 手 计算 机 


为 什么 我 们 没有 可 以 打扫 房间 或 跟 在 孩子 后 面 打扫 卫生 的 机 疾 
A? 这 并 不 古 因为 我 们 没有 机 械 能 力 ， 有 些 机 器 人 可 以 做 到 这 一 点 。 
但 问题 是 每 栋 房 子 、 每 个 厨房 都 古 不 同 的 。 你 无 法 预 完 对 一 台 机 器 进 
行 编程 ， 所 以 它 必 须 在 目 己 所 处 的 环境 中 学 习 。 
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1. Quoted in Jemima Kiss,“Hi-Tech Dealing:The Connections That Led toGoogle Buying 
DeepMind,”The Guardian,June23,2014. 


DeepMind 玩 雅 达 利 游戏 


2014 年 初 ， 在 谷歌 的 自动 驾驶 汽车 项 目 如 火 如 茶 地 进行 之 际 ， 该 
公司 掀起 了 一 场 收购 狂潮 ， 吞 并 了 多 家 人 工 智 能 和 机 器 人 公司 。 在 此 
期 间 ， 他 们 以 超过 5 亿美 元 的 价格 收购 了 一 家 名 为 DeepMind 的 神秘 小 
公司 。 当 时 ，DeepMind 只 有 大 约 50 名 员工 。 它 的 网 站 似乎 只 有 一 个 网 
页 ， 上 面 列 出 了 公司 的 创始 人 和 两 个 电子 邮箱 地 址 。 


合 歌 在 每 个 周 五 都 会 召开 一 次 名 为 “TGIF” 的 全 员 会 议 。 公 司 的 创 
始 人 和 其 他 领导 利用 这 个 会 议 发 布 公告 ， 分 享 公司 各 组 织 内 部 项 目的 
细节 。 谷 歌 收购 DeepMind 几 个 月 后 ， 有 关 DeepMind 将 在 该 会 议 亮 相 的 
消息 传 通 了 人 公司。 终于， 谷歌 的 每 个 人 都 能 了 解 这 个 秘密 部 门 在 这 上 段 
时 间 里 的 工作 了 。 


DeepMind 在 会 议 上 解释 说 ， 他 们 已 经 找到 了 让 计算 机 程序 目 学 玩 
各 种 雅 达 利 游戏 的 方法 ， 包 括 玩 《太空 入 侵 者 》 和 《 打 砖 块 》 这 种 经 
典 游戏 的 方法 。DeepMind 让 他 们 的 程序 玩 了 数 百 万 局 游戏 之 后 ， 程 序 
的 游戏 水 平 通常 会 比 人 类 玩家 优秀 很 多 。 


随后 ，DeepMind 癌 观众 展示 了 计算 机 程序 玩 《 太 空 入 侵 者 》 的 一 
段 视频 ， 在 这 球 游 戏 中 ， 玩 家 必须 移动 屏幕 慌 部 的 一 艘 宇宙 飞船 来 冉 
击 外 星人 ,阻止 外 星人 降落 到 发 部 。 图 7.1 分 别 是 《太空 入 侵 者 》 和 
《 打 砖 块 》 的 游戏 截图 ， 你 或 许 认 识 。 


空 入 侵 者 》 
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图 7.1 DeepMind 智 能 体 玩 的 两 款 雅 达 利 游戏 。 (a) 《太空 入 侵 者 》 和 (b) 《 打 砖 块 》 


观众 全 神 贯 注 地 观看 着 计算 机 程序 无 可 挑剔 地 玩 痢 游戏 。 它 发 射 
的 每 一 枚 导弹 都 击 中 了 目标 。 随 着 一 局 游戏 接近 尾声 ， 只 剩 下 了 一 个 
外 星人 。 当 外 星人 一 步 一 步 地 远离 导弹 ， 癌 屏 傍 右 侧 移动 时 ， 计 算 机 
程序 发 揣 了 一 枚 偏离 轨道 的 导弹 。 房 间 里 的 人 们 稍微 松 了 口气 ， 或 许 
这 个 人 工 短 能 终究 还 是 威胁 不 到 人 类 的 生存 。 


然后 ， 观 众 继续 往 下 看 ， 只 见 外 星人 从 屏幕 的 一 侧 反 弹 回 来 ， 开 
始 同 屏幕 中 央 移 动 。 此 时 ， 程 序 的 策略 变 得 一 日 了 然 。 外 星人 直接 进 
入 了 刚刚 射 侦 的 导弹 的 轨道 ， 然 后 被 挫 驶 了 。 计 算 机 完美 地 局 了 一 局 
游戏 。 房 间 里 爆发 出 一 阵 欢 呼 。 


为 什么 围观 的 谷歌 工程 师 如 此 兴奋 ? IBM 难 道 不 是 早 在 近 20 年 前 
的 1997 年 就 创造 了 “深蓝 ”， 击 败 了 世界 上 最 好 的 国际 象棋 棋 手 加 里 : 卡 
斯 由 罗 夫 吗 ?“ 沃 森 ” 难 道 不 是 在 2011 年 就 打败 了 《人 危险 边缘 》 的 冠军 
肯 : 詹 宁 斯 吗 ? 合 歌 的 工程 师 难 道 不 知道 他 们 的 目 动车 驶 汽车 已 经 在 道 
路 上 行驶 了 近 70 万 英里 ? 如果 连 目 动 驾 驶 汽车 都 症 可 能 的 ， 那 为 什么 
所 有 人 都 对 计算 机 攻克 一 于 简单 的 电子 游戏 喷 喷 称奇 ? 况且 此 时 ， 计 
算 机 可 以 高 水 平地 玩 电子 游戏 也 已 经 有 多 年 历史 了 。 


这 个 计算 机 程序 之 所 以 让 人 赞叹 ， 是 因为 它 学 会 了 在 没有 人 类 指 
导 的 情况 下 玩 游戏 。 而 早期 的 突破 需要 相当 大 程度 的 人 类 判断 力 和 对 
算法 的 调整 。 对 于 目 动 营 驶 汽车 ， 人 类 需要 精心 开发 探测 可 行驶 地 形 
的 功能 ， 然 后 告诉 汽车 可 以 在 哪 种 地 形 上 行驶。 人 类 需要 在 上 自动 区 驶 
汽车 的 大 富 兮 棋盘 模块 中 手动 创建 有 限 状 态 机 。 目 动 区 驶 汽车 其 实 尚 
未 在 反复 试 错 中 学 会 如 何 目 动 行驶 。 


相 比 之 下 ， 程 序 员 从 来 没有 告诉 过 DeepMind 程 序 向 左 轻 拨 操 纵 杆 
会 让 飞船 癌 左 移动 ， 按 下 按钮 会 发 射 导弹 ， 甚 至 也 没 告诉 程序 网 外 星 
人 发 射 导弹 会 摧 哎 外 星人 并 蜂 得 积分 。 雅 达 利 游戏 窜 能 体 的 唯一 输入 
是 屏幕 上 的 原始 像素 ， 即 它们 的 红 、 绿 、 蓝 三 色 ， 以 及 当前 的 得 分 。 
更 令 人 赞叹 的 是 ，DeepMind 使 用 相同 的 程序 来 学 习 全 部 49 款 雅 达 利 
游戏 ， 无 须 任 何 手动 调整 。 对 其 中 大 多 数 游戏 ， 程 序 学 过 之 后 都 玩 得 
很 好 。 程 序 所 需要 的 只 是 练习 每 一 球 游 戏 的 时 间 。DeepMind 通 过 一 种 
叫 强化 学 习 的 思想 实现 了 这 一 目标 ， 强 化 学 习 是 人 工 智能 的 一 个 领 
域 ， 致 力 于 赋予 计算 机 程序 从 经 验 中 学 习 的 能 


1 ”从 技术 上 讲 ， 这 个 分 数 是 经 过 调整 以 便 让 它 落 到 特定 范围 内 的 。 


强化 学 习 


在 本 章 和 下 一 章 中 ， 我 将 解释 DeepMind 如 何 使 用 强化 学 习 来 掌握 
这 些 雅 达 利 游戏 。( 思 使 用 这 种 技术 的 计算 机 程序 通过 得 到 偶然 的 奖励 
或 惩罚 来 学 习 做 事情 。 因 此 ， 要 训练 它们 ， 我 们 只 需要 对 它们 进行 编 
程 ， 让 它们 寻求 这 些 激励 。 然 后 ， 当 它们 做 出 我 们 希望 它们 做 的 事情 
时 ， 我 们 就 给 予 它 们 这 些 激励 。 束 像 当 你 给 宠物 狗 食 物 的 时 候 它 会 学 
会 听从 命令 一 样 ， 通 过 强化 学 习 来 学 习 的 程序 (在 人 工 智能 界 ， 指 代 
这 种 程序 的 术语 是 智能 体 ) 也 会 学 会 听从 你 的 命令 。 


强化 学 习 智 能 体 似乎 太 智能 了 ， 不 可 能 是 目 动机 ， 但 是 ， 正 如 我 
们 将 在 接 下 来 的 两 章 中 看 到 的 ， 它 们 仍然 遵循 确定 性 的 程序 。 例 如 ， 
经 过 训练 的 雅 达 利 游戏 智能 体 玩 游戏 时 ， 只 需要 查看 游戏 最 新 的 4 张 屏 
PRA ( 见 图 7.2) 。 在 看 过 这 些 屏 幕 截图 后 ， 它 会 计算 一 个 数学 函数 
来 选择 一 个 操纵 杆 动作 。 例 如 ， 同 左 、 同 右 ， 或 按 “ 开 火 ” 按 钮 。 然 
后 ， 它 一 授 勾 一 授 地 重复 这 个 过 程 ， 查 看 游戏 最 新 的 截图 ， 根 据 看 到 
的 情况 选择 一 个 动作 ， 直 到 游戏 结束 。 然 而 ， 正 如 你 可 能 猜 到 的 那 
样 ， 神 奇 之 处 并 不 在 于 它 如 何 玩 游戏 一 一 我 刚才 解释 过 ， 玩 游戏 很 简 
单 。 真 正 的 神奇 之 处 在 于 它 如 何 学 会 玩 游戏 ， 以 及 它 如 何 感 知 屏幕 上 
发 生 的 事情 。 在 本 章 中 ， 我 们 将 从 第 一 个 问题 开始 : 一 个 智能 体 如何 
根据 其 过 去 的 经 验 来 学 习 应 该 采取 哪些 行动 ? 


输出 (动作 ) 


OO… OO 


输入 (像素 ) 
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时 间 


图 7.2 DeepMind 的 雅 达 利 游戏 智能 体 持续 运行 。 在 任意 给 定时 刻 ， 它 都 会 接收 最 新 的 4 张 屏幕 
截图 ， 将 像素 作为 输入 ， 然 后 它 会 运行 一 个 算法 来 决定 下 一 个 动作 并 输出 动作 


我 将 用 一 个 虚拟 的 高 尔 夫 球 游戏 来 前 述 强化 学 习 的 工作 原理 。 我 
们 在 图 7.3 (a) 所 示 的 球场 上 进行 游戏 ， 智 能 体 的 目标 是 用 尽 可 能 少 
的 杆 数 将 高 尔 夫 球 打 进 球 洞 。 我 们 感 兴 趣 的 古 设 计 一 个 智能 体 ， 当 它 
在 高 尔 夫 球场 的 不 同位 置 时 ， 它 能 够 学 习 应 该 绷 哪 个 方 癌 挥 杆 ， 应 该 
瞄准 东 、 南 、 西 、 北 哪个 方向 ， 才 能 让 球 更 接近 球 洞 。 为 了 教导 智能 
体 ， 我 们 要 对 它 进行 训练 ， 直 到 它 有 足够 的 经 验 可 以 目 己 打 高 尔 夫 
球 。 到 那个 时 候 ， 无 论 在 球场 的 什么 位 置 ， 它 都 能 够 目 主 选择 应 该 朝 
哪个 方向 挥 杆 ， 让 球 向 球 洞 前 进 。 


Bae ee gE ST A RAR OS 真 的 需要 使 用 强化 学 习 来 告诉 
智能 体 在 高 尔 夫 球场 上 朝 哪里 挥 杆 吗 ? 难道 我 们 不 能 直接 对 智能 体 进 
行 编程 ， 让 它 直 接 旨 球 洞 挥 杆 ? 正如 你 将 在 下 一 市 中 看 到 的 ， 这 个 选 
择 并 不 可 行 ， 因 为 路 线 上 会 有 很 多 障碍 。 相 反 ， 智 能 体 需要 根据 它 在 
球场 上 的 位 置 对 挥 杆 进行 细微 的 调整 。 强 化 学 习 不 仅 是 做 这 项 工作 的 
工具 ， 它 还 是 做 这 项 工作 的 唯一 工具 。 


1. Volodymyr Mnih et al.“Human-Level Control through Deep Reinforcement 
Learning,” Nature518,no.7540(2015):529-533. 


教导 智能 体 


现在 ， 假 设 你 是 智能 体 ， 你 要 在 如 图 7.3 (a) 所 示 的 球场 上 打 高 

尔 夫 球 。 你 可 以 瞄准 任意 主要 方向 CR ^ PH BEC JE) 或 其 中 间 方 向 

(东北 、 东 南 、 西 北 、 西 南 挥 杆 。 如 果 你 击 球 成 功 ， 球 就 会 沿 着 你 

瞄准 的 方向 移动 一 个 小 方 格 ， 如 图 7.3 (b) 所 示 ， 你 希望 用 尽 可 能 少 

的 击 球 次 数 把 球 打 进 球 洞 。 还 要 注意 的 是 ， 这 个 球场 很 大 ， 所 以 可 能 
需要 大 约 150 杆 才能 打 满 一 局 。 


(a) 强化 学 习 示例 中 的 高 尔 夫 球场 。 从 浅 灰 色 到 深 灰 色 的 地 形 类 型 依次 为 : RIG ( 指 球 洞 所 在 的 
StF, WEB), BGB. KS. in, Kin ( 难度 最 大 )。 起 点 在 左 人 出， 目标 在 右上 角 。 


(b) 你 的 目标 是 用 尽 可 能 少 的 杆 数 将 球 从 起 始 位 置 打 进 洞 中 ， 你 每 次 击 球 只 能 让 球 移动 一 个 小 方 
格 ( 或 原 地 不 动 )。 


(c) S/RXEKIS LORES, Atge RAER. Ju md AEFI Kel 16 8 
图 7.3 


还 有 两 件 事 会 让 这 个 高 尔 夫 球 游戏 变 得 有 趣 。 站 和 完 ， 也 是 最 重要 
的 是 ， 球 场 上 到 处 都 有 会 爆炸 的 地 雷 ， 如 图 7.3 (c) 所 示 。 玩 游戏 的 
时 候 ， 你 知道 这 些 地 雷 的 位 置 ， 而 且 每 次 玩 的 时 候 它们 都 是 固 定 不 动 
的 ， 但 是 你 必须 不 惜 一 切 代价 避免 踩 到 它们 。 


如 果 你 能 完美 地 瞄准 ， 地 雷 就 不 古 问题 ， 所 以 我 要 添加 最 后 一 个 
规则 来 增加 游戏 难度 : 球 并 不 总 是 绷 你 瞄准 的 方 癌 移动 。 有 时 它 会 售 
在 芳 边 的 男 一 个 方 格 中 ， 有 时 它 可 能 会 原 地 不 动 。 你 可 以 把 它 归 因 于 
你 认为 的 任意 因素 ， 可 能 古风 ， 也 可 能 古 一 次 糟糕 的 挥 杆 。 当 你 挥 杆 
时 ， 你 不 知道 球 运动 的 细 市 ， 这 其 中 包含 了 一 些 随机 性 ， 但 你 可 能 会 
怀疑 ， 球 在 艰难 的 地 形 (ES) 比 在 容易 的 地 形 (比如 果 岭 ) 
上 更 难 打 ， 这 些 都 是 你 需要 从 经 验 中 学 习 的 细 玫 。 地 形 类 型 从 最 容易 
到 最 困难 依次 是 果 岭 、 球 道 、 长 草 、 沙 坑 以 及 水 坑 。 如 采 把 球 打 到 水 
坑 里 ， 你 整 浪费 了 一 杆 ， 此 时 你 需要 在 球 落水 前 的 位 置 重新 击 球 。 你 
应 该 采用 什么 策略 ， 用 尽 可 能 少 的 杆 数 把 球 打 进 球 洞 呢 ? 无 论 在 哪 
里 ， 你 都 应 该 直接 瞄准 球 洞 吗 ?” 如 采 需 要 穿 过 沙 坑 呢 ?你 应 该 答 试 贸 
在 球道 和 果 岭 上 ， 以 此 尽量 保持 对 球 的 控制 吗 ? 为 了 安全 ， 你 应 该 和 
地 雷 保持 多 远 的 距离 ? 


为 智能 体 编写 程序 


这 些 问题 的 答案 取决 于 很 多 因素 ， 但 即使 智能 体 没 有 这 些 信息 ， 
我 们 仍然 可 以 教 给 它 好 的 策略 ， 方 法 就 是 让 它 玩 一 段 时 间 ， 并 在 适当 
的 时 候 给 予 它 奖 励 。 我 们 该 如 何 训练 智能 体 ? 当 它 到 达 终 点 位 置 (高 
尔 夫 球场 尽头 的 球 洞 ， 时 ， 游 戏 结束 ， 我 们 立即 给 它 一 块 巧 元 力作 为 
奖励 《价值 为 1) 。 如 果 智 能 体 踩 到 地 雷 ， 我 们 会 用 电击 惩 如 它 ， 相 当 
于 减 去 半 块 巧克力 (价值 为 -1/2) 。 如 有 果 智 能 体 踏 入 其 他 方 格 ， 就 既 
AEA ET ° 


我 们 需要 回答 一 个 更 有 趣 更 具 技术 挑战 性 的 问题 : 如 何 创 建 可 以 
从 这 些 奖 励 中 进行 学 习 的 智能 体 ?” 我 们 不 能 指望 只 给 智能 体 巧 元 力 融 
能 让 它 做 我 们 希望 的 事 。 我 们 还 要 让 它 知 道 巧 元 力 是 值得 追求 的 。 


有 两 个 观察 可 以 帮助 我 们 回答 这 个 问题 。 第 一 个 观察 涉及 我 们 如 
何 让 智能 体 存 储 它 的 环境 模型 。 模 型 必须 能 总 结 乔 能 体 的 经 验 ， 使 其 
可 以 用 于 未 来 的 决策 。 我 们 让 智能 体 把 它 的 环境 模型 存储 在 一 个 巨大 
的 数字 立方 体 中 ， 如 图 7.4 所 示 。 
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图 7.4 


这 个 立方 体 中 的 每 个 小 块 都 会 存储 一 个 数字 ， 该 数字 会 告诉 智能 
体 在 球场 不 同位 置 执行 特定 动作 时 可 以 抱 有 的 期 望 价值 ， 即 它 应 该 得 
到 多 少 块 巧 元 力 。 每 当知 能 体 需要 决定 采取 的 动作 时 ， 它 都 会 查看 当 
前 位 置 的 所 有 8 个 可 能 动作 ， 这 些 动作 构成 了 贯穿 立方 体 的 一 堆 数值 ， 
然后 它 会 选择 数值 最 高 的 动作 。 在 执行 一 次 动作 后 ， 智 能 体会 发 现 目 
己 处 于 男 一 种 状态 (可 能 是 它 没 有 预料 到 的 状态 ) ， 然 后 它 会 重复 同 
样 的 过 程 。 如 果 立 方 体 已 经 被 填 入 了 正确 的 数值 ， 那 么 这 个 策略 似乎 
征 可 行 的 ， 而 且 非 常 简 单 ， 我 们 甚至 可 以 用 物理 设备 对 它 进 行 编码 ， 
从 而 创建 一 合 机 械 目 动机 。 但 这 仍然 回避 了 一 个 问题 : 我 们 如 何 确定 
在 立方 体 的 每 个 小 块 中 应 该 填 入 什么 数值 ? 


为 了 回答 这 个 问题 ， 我 们 就 需要 男 一 个 关键 的 观察 了 ， 这 个 观察 
征 关 于 立方 体 中 的 数值 应 该 代表 什么 的 。 请 注意 ， 如 采 智 能 体 移 动 到 
不 是 最 终 目标 的 状态 ， 那 么 它 束 不 会 得 到 巧 元 力 。 这 是 有 问题 的 ， 因 
为 缺乏 奖励 对 智能 体 而 言 没有 多 少 进步 感 。 我 们 可 以 说 ， 放 有 眼 一 望 ， 
高 尔 夫 球 场 上 奖励 的 布局 实在 太平 坦 了 。 如 采 知 能 体 在 这 种 环境 中 盲 
目地 追求 奖励 ， 那 么 它 很 难 取得 进步 。 这 吏 引 出 了 我 们 设计 “强化 学 习 
智能 体 ? 所 需要 的 最 终 观 察 结果 : 即使 智能 体 没 有 因 某 个 特定 状态 获得 
巧克力 ， 它 仍 伏 有 机 会 最 终 因 那个 状态 得 到 巧 元 力 。 立 方 体 中 的 数值 
至 少 应 该 直观 地 体现 出 这 个 机 会 。 


在 为 智能 体 设 计 这 种 机 会 的 概念 时 ， 我 们 想 要 的 一 个 特性 是 : EP 
能 体 应 该 倾 加 于 尽早 获得 巧克力 。 这 是 直观 的 感觉 ， 如 采 你 的 狗 在 房 
间 的 男 一 边 ， 你 伸 出 手 喂 它 吃 东西 ， 它 会 立刻 跳 到 你 映 边 。 如 采 你 训 
练 过 你 的 狗 做 一 些 特技 ， 它 会 跑 过 来 打滚 儿 ， 甚 至 在 你 给 它 下 命令 之 
前 就 开始 表演 了 。 狗 的 这 种 行为 会 让 它 尽 快 得 到 奖励 。 如 果 狗 可 以 选 
择 是 立即 开始 表演 ， 还 是 等 30 秒 之 后 再 开始 同样 的 表演 来 得 到 食物 ， 
它 会 尽 一 切 努 力 现在 束 得 到 食物 。 无 论 我 们 如 何 定 义 这 个 机 会 的 概 
念 ， 都 希望 定义 中 要 目 然 而 然 地 表现 出 这 种 倾 同 于 尽早 得 到 巧克力 的 
偏好 。 


我 们 可 以 将 这 个 机 会 的 概念 形式 化 一 一 再 次 重申 ， 机 会 是 我 们 项 
望 由 立方 体 的 每 个 小 块 表 示 的 价值 。 形 式 化 的 方法 是 将 其 定义 为 智能 
体 可 以 期 望 得 到 的 未 来 所 有 巧克力 的 总 数 ， 总 数 随 着 智能 体 得 到 这 些 
巧克力 所 需要 的 时 间 而 调整 。 表 远 示 来 的 巧克力 应 该 比 当前 的 巧克力 
价值 更 低 。 这 种 时 间 调 整 的 效果 很 像 你 对 金钱 的 估价。 比方 说 ， 你 把 
一 张 10 美 元 的 钞票 塞 进 零钱 机 里 换 和 零钱 。 如 有 果 这 台 机 器 有 一 天 的 延 
人 迟 ， 也 就 是 说 ， 你 今天 投入 10 美 元 ， 明 天 得 到 10 美 元 零钱 ， 你 可 能 不 
会 认为 这 是 一 笔 好 买卖 ， 因 为 你 已 经 放弃 了 在 这 段 时 间 里 花 这 些 钱 的 
权利 ， 而 且 你 明天 是 否 能 收回 这 笔 钱 还 有 一 些 不 确定 性 。 所 以 ,或许 
你 只 愿意 今天 往 机 器 里 塞 8 美元 ， 明 天 拿 天 10 美 元 和 零钱。 如 采 机 右 有 两 


天 的 延迟 ， 你 今天 殉 更 不 愿意 投 唤 了 ， 或 许 你 也 会 愿意 投入 ， 比 如 
说 ， 只 投入 6.4 美 元 。 得 到 奖励 需要 等 竺 的 时 间 越 长 ， 通 党 分 配给 奖励 
的 价值 就 越 低 。 人 研究 人 员 把 这 种 想法 称 为 "时 间 折 扣 ”， 但 从 现在 起 ， 
我 将 其 称 为 "时间 调整 ”。 


为 了 给 智能 体 编程 ， 让 它 去 寻找 得 到 巧克力 的 机 会 ， 我 们 需要 开 
发 一 种 方法 ， 估 算出 智能 体 在 采取 行动 时 期 望 得 到 的 巧克力 总 数 ， 以 
此 填充 立方 体 的 每 个 小 块 ， 并 根据 未 来 得 到 每 份 巧 元 力 所 需 要 的 时 间 
进行 调整 。 人 过 立方 体 中 数值 更 高 的 动作 表示 有 更 大 、 更 早 、 更 频繁 的 
巧克力 回报 ， 以 及 这 三 者 的 任意 组 合 。 而 数值 低 的 动作 则 意味 着 更 
小 、 更 晚 、 更 稀少 的 巧 元 力 回报 。 例 如 ， 处 于 某 种 状态 的 智能 体 正 面 
临 着 选择 ， 一 种 动作 提供 2.5 磅 中 巧克力 的 时 间 调整 奖励 ， 另 一 种 动作 
提供 1.5 磅 巧 元 力 的 时 间 调整 奖励 ， 那 么 此 时 智能 体 应 该 选择 前 一 种 动 
作 。 


当 智 能 体 采 取 的 大 多 数 动作 都 得 不 到 巧克力 时 ， 这 种 时 间 调 整 殉 
给 了 写 划 着 球 洞 前 进 的 机 会 。 这 融 把 智能 体面 对 的 平坦 布局 变 成 了 匡 
陵 布 局 ， 而 奖励 束 在 一 座 丘 陵 的 项 上 。 知 能 体 实 际 上 并 不 做 任何 复杂 
的 规划 。 在 每 一 步 中 ， 它 只 需要 “ 顺 着 梯度 ”努力 到 达 顶 端 。 


这 种 时 间 调 整 也 给 了 我 们 一 个 旋钮 来 调节 智能 体 。 这 个 旋钮 控制 
着 一 项 权衡 ， 或 是 让 智能 体 寻 求 立 即 得 到 奖励 的 道路 ， 或 是 让 它 走 一 
条 可 能 会 推迟 奖励 的 道路 ， 寻 求 以 后 获得 更 大 的 奖励 。 通 常 ， 我 们 采 
用 这 种 时 间 调 整 的 方法 是 ， 将 奖励 乘 以 介 于 0 和 1 之 间 的 某 个 国定 数 
值 ， 这 个 数值 代表 智能 体 得 到 奖励 需要 等 待 的 单位 时 间 (例如 ， 每 小 
时 、 每 秒 钟 或 每 天 ) 。 这 个 乘 数 改 变 了 智能 体 看 到 的 奖励 布局 ， 控 制 
着 智能 体 有 多 强 的 意志 力 ， 如 果 乘 数 接近 0， 智 能 体会 倾向 于 考虑 尽 可 
能 快 地 得 到 它 能 得 到 的 巧克力 ， 即 便 这 意味 着 放弃 以 后 的 巧克力 。 如 
果 乘 数 接近 1， 智 能 体会 愿意 放弃 短期 的 巧克力 ， 而 倾向 于 以 后 得 到 更 
多 的 巧克力 。 人 十 


1 ”在 这 里 ， 我 用 “期 望 ” 这 个 词 是 表示 一 种 随意 的 意思 ， 但 我 实际 

正式 含义 ， 我 们 使 用 的 是 时 间 调 整 奖励 的 期 望 值 或 平均 值 
不 同 动作 的 状态 之 间 移 动 时 所 产生 的 随机 性 。 不 同 的 
例如 时 间 调 整 奖励 的 最 高 中 位 数 。 


Kl 


上 是 在 上 暗示 这 个 词 的 
， 这 里 的 平均 值 代表 了 在 给 定 
可 能 需要 不 同 于 预期 的 变量 


p 
AVA 


2, 1 磅 x0.4536 千 克 。 一 一 编者 注 
3. 优化 短期 奖励 有 时 是 一 种 非常 明智 的 行动 ， 例 如 ， 人 们 在 经 济 高 通胀 时 期 往往 会 这 
样 做 o 


智能 体 如 何 观察 环境 


除了 不 吃 巧 克 力 之 外 ， 狗 和 DeepMind 的 雅 达 利 游戏 智能 体 之 间 的 
一 个 明显 区 别 是 ， 狗 生活 在 现实 世界 中 ， 而 雅 达 利 游戏 养 能 体 生活 在 
模拟 的 虚拟 环境 中 。 雅 达 利 游戏 智能 体 不 会 像 狗 一 样 坐 着 或 乞求 食 
物 ， 它 的 行动 局 限于 游戏 中 可 以 使 用 的 所 有 操纵 杆 动作 。 雅 达 利 游戏 
智能 体 不 是 用 它 的 眼睛 、 耳 未 和 星子 来 感知 周围 的 环境 ， 而 是 必须 通 
过 观 凤 屏 幕 上 的 像素 并 品 答 我 们 给 它 的 虚拟 美食 来 感知 它 的 环境 。 当 
DeepMind 设 计 智能 体 时 ， 他 们 需要 某 种 方法 将 游戏 中 发 生 的 事情 与 智 
能 体 所 感知 到 的 事情 联系 起 来 。 他 们 如 何以 一 种 简明 、 连 贯 的 方式 做 
到 这 一 点 ， 使 智能 体 易于 推理 ? 


对 DeepMind 而 言 ， 茎 运 的 是 ， 阿 尔 伯 塔 大 学 的 研究 人 员 创建 了 一 
个 名 为 “街机 学 习 环境 ”(Arcade Learning Environment) 的 平台 ， 这 使 
DeepMind 能 够 让 智能 体 在 雅 达 利 游戏 世界 中 畅游 。 这 个 环境 建立 在 雅 
达 利 模拟 器 〈 即 一 个 模拟 雅 达 利 游戏 机 行为 的 程序 ) 之 上 ， 直 接 从 运 
行 游戏 的 计算 机 内 存 中 提取 信息 。( 司 通过 使 用 "街机 学 习 环境 ”， 
DeepMind 可 以 轻松 地 “查找 ”智能 体 的 输入 ， 即 像素 和 当前 得 分 ， 将 它 
们 作为 感知 输入 呈现 给 智能 体 ， 并 将 智能 体 的 命令 解释 为 操纵 杆 动作 
发 送 给 环境 。 于 是 , “街机 学 习 环境 ” 便 可 以 正确 处 理 模 拟 的 雅 达 利 游 
WHA AAR T o 
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经 验 金 块 


到 目前 为 止 ， 我 们 仍然 没有 具体 的 方法 来 填充 多 维 数据 集 〈 即 数 
字 立 方 体 ) 中 的 数值 。 我 们 知道 多 维 数 据 集中 的 每 个 数值 都 应 该 表示 
智能 体 在 未 来 会 得 到 的 时 间 调 整 巧克力 的 数量 ， 并 且 我 们 知道 ， 要 创 
建 一 个 智能 体 来 使 用 这 些 数值 ， 台 需要 对 智能 体 进 行 编程 ， 让 它 无 论 
处 于 什么 状态 都 会 选择 数值 最 高 的 动作 ， 但 是 我 们 还 不 清楚 如 何 计算 
填 入 多 维 数据 集 的 数值 。 


如 果 我 们 有 关于 这 于 游戏 的 完美 信息 ， 例 如 我 们 在 球场 的 每 个 区 
域 朝 某 个 方向 击 球 的 可 能 性 有 多 大 ， 那 么 就 可 以 使 用 强化 学 习 领 域 的 
一 些 数 学 公式 来 计算 整个 多 维 数据 集 的 数值 ， 而 无 须 让 智能 体 玩 游 
戏 。 但 是 这 种 完美 信息 是 我 们 没有 的 奢侈 品 。 高 尔 夫 球 游戏 丈 像 雅 达 
利 游戏 一 样 ， 我 们 甚至 不 知道 在 完成 一 个 动作 后 ， 高 尔 夫 球 会 有 多 大 
可 能 落 在 一 个 不 同 的 状态 。 


DeepMind 解 决 这 个 问题 的 方法 是 ， 通 过 让 智能 体 反 复试 错 来 学 习 
多 维 数据 集中 的 数值 。 起 初 ， 智 能 体 选 择 完 全 随机 的 动作 ， 以 便 从 经 
验 中 了 解 哪 种 “状态 一 动作 对 ”往往 伴随 着 奖励 。 通 过 使 用 强化 学 习 中 
的 一 种 叫 离线 学 习 (off-policy learning) 的 技巧 ， 智 能 体会 学 习 到 很 好 
的 游戏 策略 ， 即 便 它 只 是 跌跌撞撞 地 随机 乱 走 。 然 后 ， 随 着 智能 体 获 
得 经 验 ， 它 会 开始 喜欢 非 随机 的 动作 。 


我 们 把 离线 学 习 算法 应 用 到 高 尔 夫 球 游戏 中 。 首 先 ， 我 们 让 智能 
体 玩 一 局 游戏 ， 让 它 每 次 需要 移动 时 都 选择 随机 动作 。 这 会 生成 一 系 
列 的 “状态 一 动作 对 ”， 如 图 7.5 的 左 侧 框 图 所 示 。 在 智能 体 玩 完 一 局 游 
戏 之 后 ， 我 们 需要 使 用 智能 体 在 游戏 中 的 经 验 来 更 新 多 维 数据 集中 的 
数值 。 


Be] AT DARE BE R227 4] BO LP ROR, BES ERED Be 
干 信息 : 智能 体 在 选择 和 执行 一 个 动作 时 处 于 什么 状态 ， 选 择 哪 个 动 
作 ( 北 、 东 北 、 东 等 ) ， 在 执行 动作 后 最 终 处 于 哪 种 状态 ， 以 及 它 到 
达 下 一 个 状态 时 是 否 会 得 到 或 失去 巧 元 力 。 你 可 以 在 图 7.5 的 左 侧 框图 
中 看 到 这 样 的 一 个 组 块 。 智 能 体 将 从 这 些 经 验 金 块 中 学 习 它 所 需要 的 
一 切 。 


我 们 需要 一 些 方 法 来 更 新 多 维 数据 集中 的 数值 ， 以 便 把 这 些 经 验 
金 块 具体 化 。 如 果 智 能 体 在 经 历 了 一 些 “ 状 态 一 动作 对 ”之 后 ， 最 终 到 
达 了 它 的 目的 地 〈 即 球 洞 ) ， 那 么 我 们 就 把 多 维 数据 集中 的 “状态 一 动 
作对 ”的 数值 稍微 癌 奖 励 1 推 进 一 点 。 我 们 并 不 把 它 设 置 为 1， 只 是 把 它 
问 1 稍 微 推进 一 点 。 如 有 果 一 个 “状态 一 动作 对 ?” 通 回 球 场 上 有 地 埋 的 位 
置 ， 我 们 束 把 “状态 一 动作 对 ”的 数值 向-1/2 稍 微 推 进 一 点 。 否 则 ， 我 
们 整 让 “状态 一 动作 对 ”的 数值 向 0 接近 。 我 使 用 “推进 ”这 个 词 时 很 随 
意 ， 但 是 强化 学 习 提 供 了 一 种 精确 的 数学 方法 来 调整 这 些 值 ， 它 与 这 
个 词 的 直观 售 义 非常 吻合 。 


这 足以 让 智能 体 了 解 在 动作 之 后 立即 看 到 的 奖励 。 但 是 请 记 住 : 
我 们 希望 多 维 数据 集中 的 数值 表示 出 未 来 所 有 的 时 间 调 整 奖 励 流 ， 
为 我 们 希望 智能 体 选 择 天 奖励 移动 的 动作 ， 即 使 它 此 时 距离 奖励 很 
远 。 我 们 需要 一 些 方法 来 估计 这 次 动作 后 智能 体 看 到 的 奖励 流 。 训 练 
智能 体 的 秘密 就 在 于 此 。 因 为 我 们 已 经 从 经 验 金 块 中 了 解 了 和 帝 能 体 在 
选择 某 个 动作 后 最 终 会 处 于 什么 状态 ， 所 以 恰恰 可 以 在 多 维 数 据 集 本 
身 中 查看 这 个 信息 ! 


2. 对 于 选 定 的 “状态 一 动作 对 ”"， 更 
1. 模拟 一 局 游戏 ， 生 成 一 新 智能 体 的 “状态 一 动作 对 ”多 
系列 “状态 一 动作 对 ”。 


二 ST ee, 


OW "BA SEA, MES VGL. WRATH, GEA VERS TEA Sm" 


把 “状态 一 动作 对 ” 朝 着 未 来 的 时 间 调 
整 奖 励 流 推进 ， 更 新 “状态 一 动作 对 ”。 


~ 
CA 
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为 下 一 个 状态 的 最 佳 动作 找到 时 间 调 
整 奖励 值 


图 7.5 训练 强化 学 习 智 能 体 的 一 种 方法 是 模拟 。 首 先 ， 智 能 体 通 过 游戏 生成 一 系列 “状态 一 动 
作对 ”和 奖励 ， 如 左 侧 框图 所 示 。 接 下 来 ， 如 右 侧 框图 所 示 ， 我 们 利用 智能 体 经 历 过 的 “状态 
一 动作 对 "来 更 新 智能 体 在 给 定 状态 下 采取 不 同行 动 得 到 的 未 来 奖励 的 估 值 。 这 种 特别 的 方法 
有 时 被 称 为 时 序 差 分 学 习 (temporal difference learning ) 


EAF, BoB Ae Be PRY RR EN E Pat RT TR AS 
选择 最 佳 动作 ， 那 我 们 就 可 以 确切 地 知道 聪明 的 智能 体 在 拥有 了 经 验 
金 块 之 后 会 采取 哪些 动作 。 因 为 根据 定义 我 们 可 以 知道 ， 多 维 数据 集 
存储 了 智能 体 的 下 一 次 动作 会 得 到 的 时 间 调整 奖励 的 数量 ， 所 以 我 们 
可 以 使 用 该 信息 更 新 当前 的 “状态 一 动作 对 ”。 


因为 这 个 动作 (和 它 的 奖励 ) 是 迈 向 未 来 的 一 步 ， 所 以 对 智能 体 
的 未 来 动作 将 会 得 到 的 奖励 数量 ， 我 们 将 进行 时 间 调 整 ， 然 后 把 原来 
的 “状态 一 动作 对 ” 朝 着 这 个 时 间 调 整 奖励 的 数值 推进 。 为 了 训练 智能 
体 ， 我 们 将 对 智能 体 在 游戏 期 间 访问 的 状态 重复 这 个 过 程 ， 然 后 在 许 
多 局 游戏 中 重复 这 个 过 程 。 


这 种 目 我 参照 的 把 戏 可 能 会 在 你 的 脑海 中 殴 啊 警 钟 。 当 我 们 第 一 
次 开始 训练 智能 体 时 ， 多 维 数 据 集 中 的 数值 是 晕 无 意义 的 。 再 加 上 鹤 
能 体 从 迁 择 随机 动作 开始 ， 我 们 很 难 相信 它 能 够 学 习 到 好 的 策略 。 无 
用 的 输入 难道 不 等 于 无 用 的 输出 吗 ? 的 确 ， 多 维 数 据 集中 的 数值 最 初 
会 非 党 糟糕， 我们 最初 对 多 维 数据 集 所 做 的 更 改 也 不 会 有 太 大 帮助 。 
但 是 随 厦 时 间 的 推移 ， 学 习 的 质量 会 逐 湖 提高 。 


在 描述 智能 体 如 何 填 充 和 使 用 多 维 数据 集 时 ， 我 对 其 中 隐藏 的 环 
境 做 了 一 个 重要 的 假设 。 此 处 的 假设 是 : 在 预测 智能 体 的 未 来 时 ， 唯 
一 相关 的 状态 是 智能 体 的 当前 状态 。 这 并 不 意味 着 它 过 去 的 状态 和 动 
作 无 关 紧 要 ， 它 们 对 于 使 智能 体 来 到 当前 状态 非常 重要 。 但 是 ， 一 旦 
我 们 知道 了 智能 体 的 当前 状态 ， 就 可 以 忘记 此 前 的 一 切 ， 因 为 我 们 假 
设 智能 体 的 当前 状态 捕捉 到 了 与 预测 其 未 来 相关 的 所 有 历史 。 这 个 假 
设 通常 被 称 为 马尔 可 夫 假 设 (Markovian assumption) 。 虽 然 很 简单 ， 
但 马尔 可 夫 假 设 使 我 们 能 够 用 连接 过 去 和 未 来 的 经 验 金 块 来 更 新 多 维 
数据 集 ， 这 样 多 维 数据 集中 的 数值 本 身 就 可 以 连接 过 去 和 未 来 。 这 就 
是 为 什么 智能 体 每 玩 一 局 游戏 ， 多 维 数据 集中 的 数值 就 会 变 得 更 准 


确 。 多 维 数 据 集 中 的 组 块 会 在 民 性 循环 中 得 到 改善 ， 它们 
从 “ 坏 ” 到 “好 ”， 进 而 走 癌 “ 完 类 ”。 


在 每 一 局 高 尔 夫 球 游戏 中 ， 智 能 体 访问 的 状态 序列 都 会 在 高 尔 夫 
球场 上 形成 一 条 “轨迹 ”。 你 可 以 在 图 7.6 中 看 到 其 中 一 些 轨迹 。 如 图 7.6 
(a) 所 示 ， 最 开始 ， 宥 能 体 完全 随机 移动 ， 需 要 很 多 杆 才 能 到 达 最 后 
的 球 洞 。 玩 过 几 局 游戏 之 后 ， 状 能 体 束 可 以 跌跌撞撞 地 向 球场 末端 的 
球 洞 移动 了 。 然 而 ,一旦 玩 过 儿 千 局 游戏 ， 它 束 会 精确 地 绕 痢 地 雷 移 
动 。 如 图 7.6 (b) 所 示 ， 你 可 以 看 到 ， 智 能 体 甚至 在 离 地 雷 很 远 时 就 
预测 到 地 雷 ， 并 转向 避 开 了 它 。 在 稼 能 体 学 会 完美 的 策略 之 后 ， 它 仍 
然 存 在 一 些 问题 ， 比 如 它 无 法 避免 每 次 挥 杆 时 所 面临 的 随机 性 。 但 
征 ， 智 能 体 用 了 一 种 不 同 的 方式 来 优化 目 己 ， 学 会 了 在 离 地 雷 很 远 时 
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cb) 
图 7.6 高 尔 夫 球 游戏 智能 体 的 移动 轨迹 〈 白 色 路 径 ) 。 (a) 智能 体 玩 过 10 局 游戏 后 的 移动 轨 


迹 。 (b) 智能 体 玩 过 3070 局 游戏 后 的 移动 轨迹 


用 强化 学 习 玩 雅 达 利 游戏 


我 在 本 章 中 描述 的 方法 古 在 实践 中 最 常用 的 强化 学 习 方 法 之 一 。 
在 这 种 方法 中 ， 智 能 体 通过 选择 不 同 的 动作 从 一 个 状态 移动 到 男 一 个 
状态 ， 当 智能 体 做 了 我 们 认可 的 事情 时 ， 我 们 吏 给 它 巧 元 力作 为 奖 
励 。 当 需要 执行 一 个 动作 时 ， 智 能 体会 参考 它 的 多 维 数据 集 。 它 得 找 
可 以 执行 的 动作 ， 选 择 时 间 调 整 奖 励 流 最 高 的 动作 ， 然 后 执行 这 个 动 
作 ， 从 而 移动 到 不 同 的 状态 ， 并 可 能 因此 获得 男 一 个 奖励 。 当 想 要 训 
练 智能 体 时 ， 我 们 可 以 让 它 玩 很 多 局 游戏 ， 然 后 使 用 它 的 经 验 金 块 来 
更 新 它 的 多 维 数据 集 。 


用 这 个 多 维 数据 集 玩 高 尔 夫 球 游 戏 是 可 行 的 ， 因 为 高 尔 夫 球场 中 
有 60x100=6000 个 状态 ， 而 多 维 数据 集中 有 6000x8=48000 个 单元 。 单 
元 的 数量 虽说 不 少 ， 但 也 没有 多 到 无 法 通过 让 智能 体 随机 移动 一 段 时 
间 来 准确 估计 这 个 多 维 数据 集中 的 数值 。 


不 六 的 是 ， 如 有 果 想 要 得 到 一 个 可 以 玩 雅 达 利 游 戏 的 智能 体 ， 那 么 
我 刚才 摘 述 的 方法 惑 行 不 通 了 。 问 题 在 于 ， 对 玩 雅 达 利 族 戏 的 智能 体 
而 言 ， 它 的 多 维 数据 集 要 比 我 们 玩 高 尔 夫 球 游戏 的 智能 体 大 很 多 个 数 
量 级 。 


正如 我 们 在 本 章 开 头 看 到 的 ，DeepMind 认 为 雅 达 利 游戏 中 的 状态 
是 过 去 4 张 屏幕 截图 中 的 屏幕 像素 的 排列 。( 司 对 于 《太空 入 侵 者 》 这 
样 的 游戏 ， 多 维 数据 集 需要 记录 数 万 亿 个 状态 。 人 轧 我 们 用 来 估计 高 尔 
夫 球 游戏 多 维 数据 集中 数值 的 方法 一 一 通过 随机 选择 动作 来 学 习 ， 行 
不 通 了 ， 因 为 我 们 需要 玩 太 多 局 游戏 才能 用 合理 的 数值 填 好 多 维 数 据 


集 。 


多 维 数据 集 的 一 小 部 分 ， 


这 听 起 来 可 能 只 苹 一 个 技术 问题 ,但 它 古 一 个 非常 实际 的 限制 。 
全 即使 我 们 有 足够 的 时 间 填充 多 维 数据 集 ， 或 者 即使 我 们 只 需要 填充 


数 雅 达 利 游戏 的 多 维 数据 集 都 太 过 庞大 。 


DeepMind 需 要 一 些 其 他 方式 来 表示 我 们 放 入 多 维 数据 集中 的 信 
息 。 他 们 求助 的 工具 是 神经 网 络 。 


1. 
2. 


3. 


假设 有 36 个 外 星人 和 至 少 3 个 叶 


>1.8x1016 种 状态 。 


E”, 
位 二 进 制 数字 ， 对 导弹 位 置 的 描述 也 可 


它 的 大 小 也 会 超出 计算 机 内 存 的 限制 。 大 多 


有 些 游戏 只 有 4 种 控制 ， 而 有 些 游戏 则 有 多 达 18 种 不 同 的 控制 组 合 。 
对 太空 船 和 飞碟 位 置 的 描述 可 以 轻易 地 超过 5 


以 轻松 超过 5 位 二 进 


f 


制 数字 o 3 EL 86434545454... 


以 每 秒 1 亿 次 评估 的 速度 计算 ， 学 习 每 种 状态 的 一 个 数据 点 就 要 花费 5 年 时 间 。 


8 ”如 何 用 神经 网 络 攻 元 雅 达 利 游戏 


神经 信息 处 理 系统 


早 在 2014 年 谷歌 收购 DeeapMind 之 前 ， 关 于 这 家 新 锐 研究 公司 的 消 
息 就 已 悄然 传 开 。 例 如 ， 在 2012 年 底 的 一 次 机 器 学 习 会 议 上 ， 
DeepMind 一 直 在 与 脸 书 和 谷歌 等 公司 激烈 竞争 ， 招 幕 机 器 学 习 领 域 的 
人 才 。( 岂 与 会 者 了 解 到 ， 这 家 神秘 公司 的 创始 人 是 杰 米 斯 - 哈 萨 比 斯 ， 
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在 这 场 名 为 “神经 信息 处 理 系统 ”(NIPS) 的 会 议 上 ， 人 工 神经 网 
络 是 讨论 的 主要 议题 之 一 。 人 们 的 兴奋 感 异 前 明 显 : 在 过 去 几 年 里 ， 
这 一 领域 的 突破 迅速 出 现 。 更 好 的 硬件 、 庞 大 的 数据 集 以 及 训练 这 些 
网 络 的 新 方法 的 融合 ， 突 然 间 让 人 研究 人 员 能 够 创建 出 高 水 平 的 神经 网 
络 架构 ， 实 现 几 十 年 前 的 人 们 梦 从 以 求 的 壮举 。 特 别 是 2018 年 ， 多 伦 
多 大 学 的 研究 人 员 创 建 了 一 个 神经 网 络 ， 让 计算 机 拥有 了 一 种 神奇 的 
能 力 来 感知 照片 中 的 物体 。 


1. Liz Gannes,“Exclusive:Google to Buy Artificial Intelligence Startup DeepMind 
for$400M,” Recode.net,January26,2014. 


近似 ， 而 非 完美 


要 创建 玩 雅 达 利 游戏 的 智能 体 ， 我 们 需要 一 些 方法 ， 总 结 智能 体 
在 每 个 可 能 的 状态 应 该 采取 的 动作 。 在 第 7 章 中 ， 我 们 了 解 了 “状态 
一 一 动作 对 ”如何 记 录 这 些 数值 。 如 有 条 没有 太 多 的 状态 和 动作 ， 这 种 方 
法 非常 有 效 。 但 是 ， 当 我 们 有 海量 的 状态 〈 就 像 雅 达 利 游戏 那样 ) 
时 ， 多 维 数 据 集束 会 变 得 非常 庞大 ， 我 们 无 法 在 合理 的 时 间 内 填 好 这 
个 多 维 数据 集 的 数值 。 


男 一 种 考虑 多 维 数据 集 的 方法 是 将 这 些 数 值 视 为 定义 一 个 数学 男 
数 : 


时 间 调 整 奖励 =q (当前 状态 ， 操 纵 杆 动 作 ) 


与 多 维 数据 集 一 样 ， 这 个 函数 会 告诉 智能 体 它 在 执行 某 一 动作 时 
所 期 竺 的 时 间 调整 奖励 流 ， 前 提 坪 假设 智能 体 此 后 总 是 选择 最 好 的 动 
作 。 如 果 智 能 体 知道 这 个 男 数 ， 那 么 它 只 需要 针对 它 正在 考虑 的 每 个 
动作 和 它 所 处 的 状态 计算 这 个 钞 数 ， 然 后 选择 函数 值 最 高 的 动作 。 在 
强化 学 习 中 ， 这 个 函数 被 称 为 动作 值 画 数 ， 或 伽 称 为 q 函 数 。 


q 函 数 的 问题 征 ， 如 采 我 们 想 让 它 完 美 地 表示 多 维 数据 集 ， 想 在 计 
算 机 上 编码 这 个 钞 数 ， 那 么 我 们 仍然 需要 大 量 的 磁 副 空间 来 存储 程 
序 。 我 们 会 遇 到 与 最 初 的 多 维 数 据 集 相同 的 问题 。 


让 q 男 数 易于 处 理 的 关键 是 认识 到 它 无 须 完美 。 多 维 数据 集中 的 数 
值 有 很 多 相关 性 ， 就 像 网 飞 的 评分 矩阵 中 的 数值 有 很 多 相关 性 一 样 。 
与 矩阵 分 解 一 样 ， 我 们 可 以 用 这 种 相关 性 来 简 洁 地 搬 述 函数 。 例 如 ， 
如 果 你 位 于 高 尔 夫 球 场 西 部 ， 你 通常 需要 往 东 走 ， 如 末 你 位 于 球场 南 
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近似 q 画 数 的 值 。 这 个 想法 是 创建 一 个 分 类 器， 它 与 我 们 曾经 用 来 制作 
《世界 最 佳 儿童 食谱 》 的 分 类 器 完全 相同 。 只 是 我 们 不 是 对 食谱 进行 
分 类 ， 而 是 对 “状态 一 动作 对 ”进行 分 类 。 


对 于 儿童 食谱 ， 我 们 选择 了 直观 且 易 于 计算 的 特征 。 具 体 指 定 对 
雅 达 利 游戏 智能 体 有 用 的 特征 很 困难 ， 因 为 这 些 特征 可 能 因 游 戏 而 
异 。 但 是 在 更 高 的 层次 上 ， 我 们 希望 这 些 特征 能 够 简化 原始 状态 至 
间 ， 同 时 仍然 能 够 捕捉 对 玩 游戏 有 用 的 重要 信息 。 


对 于 qd 函数 ， 我 们 需要 一 些 比 简单 的 分 类 郁 更 复杂 的 东西 。q 函 数 
的 形式 需要 足够 灵活 ， 以 便 可 以 很 好 地 近似 于 真正 的 多 维 数据 集 ， 这 
意味 着 它 应 该 能 够 表示 各 种 各 样 的 画 数 。 与 此 同时 ， 我 们 必须 能 够 用 
我 们 从 模拟 中 搜集 的 经 验 金 块 来 “训练 "q 函 数 。 


神经 网 络 拥有 我 们 所 寻求 的 特性 。 更 好 的 是 ， 它 们 提供 了 一 种 目 
动 生成 特征 的 方法 ， 因 此 我 们 无 须 担心 为 50 款 不 同 的 游戏 手工 设 定 特 
征 。 


用 作 数 学 画 数 的 神经 网 络 


神经 网 络 是 一 种 受 生 物 学 局 发 的 数学 画 数 ， 由 相互 作用 的 人 工 神 
经 元 组 成 。 (我 要 指出 的 是 ， 许 多 神经 网 络 研究 人 员 认 为 ， 仅 仅 因 为 
一 种 方法 受到 生物 学 的 局 发 本 赞成 这 种 方法 ， 这 种 赞成 可 能 “充满 危 


险 ”。) 


当 研 究 人 员 解 释 神 经 网 络 的 结构 时 ， 他 们 通常 会 画 一 幅 类 似 于 图 
8.1 的 图 。 


在 这 幅 神 经 网 络 示意 图 中 ， 每 个 圆 代表 一 个 神经 元 ， 神 经 元 之 间 
的 箭头 代表 神经 元 之 间 关 系 的 权重 。 你 可 以 把 网 络 中 的 每 个 神经 元 视 
为 一 个 小 灯泡 ， 它 的 亮 丈 取决 于 它 是 否 被 激活 。 如 有 果 它 被 激活 ， 便 可 
以 取 一 系列 数值 。 它 可 能 会 发 出 微弱 的 光 半 ， 也 可 能 格外 明亮 。 如 采 
它 没 被 激活 ， 吏 不 会 发 光 。 每 个 神经 元 小 灯泡 是 开 还 是 关 ? 如 果 是 
F, PAC RAIA SH? 这 全 都 取决 于 其 上 游 神 经 元 的 亮度 ， 以 及 
上 游 神 经 元 和 这 个 神经 元 之 间 的 连接 的 权重 。 


图 8.1 一 个 简单 的 神经 网 络 


一 对 神经 元 之 间 的 权重 越 大 ， 上 游 神经 元 对 下 游 神经 元 的 影响 就 
越 大 。 如 果 神 经 元 之 间 的 权重 为 负 ， 那 么 明亮 发 光 的 神经 元 便 会 抑制 
它 指 向 的 神经 元 的 亮度 。 


你 可 以 在 图 8.2 中 看 到 ， 一 个 神经 元 的 值 如 何 依赖 于 上 游 神经 元 的 
值 。 你 可 能 会 立即 意识 到 这 张 图 让 人 感觉 很 熟悉 : 每 个 神经 元 只 是 一 
个 简单 的 加 权 平 均 分 类 絮 ， 它 拥有 一 个 能 以 某 种 方式 压缩 分 类 帮 的 输 
出 的 玉 数 。 换 言 之 ， 整 个 神经 网 络 束 是 一 堆 连 接 在 一 起 的 小 分 类 器 。 


:in Wy 


3. 非 线性 函数 v 
例如 max (0, x) 


SS 


图 8.2 通过 神经 网 络 传播 数值 。 在 神经 网 络 中 ， 一 个 神经 元 的 值 要 么 由 外 部 数据 决定 (也 就 是 

说 ， 它 是 一 个 输入 神经 元 ) ， 要 么 由 充当 它 的 输入 的 其 他 上 游 神 经 元 的 函数 决定 。 当 神经 元 

的 值 由 其 他 神经 元 决定 时 ， 上 游 神 经 元 的 值 通 过 与 边 权 重 相 乘 、 求 和 ， 并 通过 一 个 非 线性 画 
数 ， 例 如 max (x, 0) ^tanh (X) SÆ KAIS H 


为 了 使 用 神经 网 络 ， 我 们 通常 将 输入 神经 元 设置 为 特定 值 ， 例 如 
让 它 匹 配 图 像 中 的 像素 颜色 ， 每 个 像素 用 三 个 介 于 0 到 1 之 间 的 数字 表 


示 ， 然 后 我 们 运行 网 络 。 当 我 们 运行 网 络 时 ， 第 一 层 神 经 元 的 腕 度 会 
决定 下 一 层 神 经 元 的 亮度 ， 下 一 层 的 亮度 会 决定 再 下 一 层 的 亮度 ， 以 
此 类 推 , 信息 流 经 网 络 ， 最 终 到 达 输 出 层 。 当 输出 神经 元 被 激活 时 ， 
它们 的 值 有 望 被 用 于 某 些 用 途 。 在 雅 达 利 游戏 智能 体 的 案例 中 ， 这 些 
神经 元 会 告诉 我 们 智能 体 应 该 采取 什么 动作 。 


尽管 神经 网 络 受到 了 生物 学 的 局 发 ， 但 它们 并 没有 什么 神秘 之 
处 。 输 入 神经 元 的 亮度 会 准确 无 误 地 决定 网 络 中 其 他 神经 元 的 亮度 。 
神经 网 络 只 征用 来 计算 一 系列 数学 公式 的 复杂 的 计算 需 。 神 经 元 之 间 
的 连接 决定 了 那些 公式 的 形式 ， 如 图 8.2 所 示 。 只 要 我 们 知道 神经 元 之 
间 所 有 连接 的 权重 以 及 输入 神经 元 是 如 何 设置 的 ， 束 没有 不 确定 性 、 
随机 性 ， 也 不 存在 能 决定 网 络 中 各 个 神经 元 是 否 会 发 区 的 魔法 。 神 经 
网 络 殉 相当 于 一 台 计 算 机 ， 因 此 筷 是 目 动机 的 主要 构件 。 


我 们 上 面 讨论 的 网 络 叫 前 饥 神 经 网 络 ， 因 为 信息 从 输入 到 输出 十 
单 问 通过 网 络 的。 一 般 而 言 ， 神 经 网 络 的 每 一 层 中 可 能 有 不 同 数量 的 
神经 元 ， 它 的 层 数 可 能 也 会 不 同 ， 甚 至 可 能 还 没有 组 织 成 屋 ， 但 是 这 
种 前 馈 结 构 仍 然 很 常见 ， 而 且 DeepMind 正 是 用 它 来 玩 雅 达 利 游戏 的 。 


不 过 ， 让 我 们 先 回 过 头 想 想 ， 为 什么 要 劳 神 费 力 地 使 用 神经 网 络 
We? 我 们 是 不 是 把 事情 搞 得 太 复 洒 了 ? 我 们 能 否 设计 一 个 更 简单 的 近 
似 于 q 画 数 的 东西 ， 也 许 只 用 一 个 简单 的 分 类 絮 ? 


如 果 我 们 的 目标 是 设计 一 个 只 玩 某 一 款 特 定 游戏 的 智能 体 ， 管 案 
或 许 是 肯定 的 。 我 们 可 以 精心 地 手工 设计 一 些 游戏 特征 ， 并 将 它们 与 
加 权 平 均 分 类 器 结合 起 来 。 但 这 样 做 无 法 让 我 们 朝 着 可 以 执行 各 种 任 
务 的 目 动机 迈进 ， 而 开发 这 样 的 目 动机 才 是 DeepMind 最 初 设 计 雅 达 利 
游戏 智能 体 的 目标 之 一 。 请 回想 : DeepMind 的 智能 体 可 以 玩 大 约 50 种 
不 同 的 雅 达 利 游戏 ， 其 中 很 多 (但 不 是 全 部 ) 它 都 玩 得 很 好 ， 而 
DeepMind 没 有 对 这 些 游 戏 进 行 目 定 义 调整 ， 它 只 是 让 智能 体 把 每 款 游 
戏 都 玩 一 段 时 间 ， 它 需要 一 个 足够 灵活 的 q 芳 数 来 玩 各 种 各 样 的 游戏 。 


事实 证 明 ， 神 经 网 络 恰恰 提供 了 我 们 所 需要 的 灵活 性 ， 甚 至 像 上 
面 那样 徐 单 的 网 络 也 不 例外 。 神 经 网 络 的 一 条 重要 定理 一 万 能 近似 
定理 (universal approximation theorem) 指出 ， 如 果 使 用 像 图 8.2 那 样 输 
入 层 和 输出 层 之 间 夹 着 一 个 中 间 层 的 网 络 ， 那 么 我 们 惑 能 够 以 任意 精 
度 给 出 近似 于 从 输入 到 输出 的 任意 画 数 。( 电 这 是 一 条 深刻 的 定理 。 它 
告诉 我 们 ,假设 我 们 精心 选择 神经 网 络 的 权重 ， 神 经 网 络 就 可 以 在 给 
定 屏幕 像素 的 情况 下 指出 在 雅 达 利 游戏 中 可 能 采取 的 最 佳 动作 。 我 们 
只 需要 创建 一 个 结构 正确 的 网 络 ， 然 后 找 出 这 些 权 重 的 数值 即 可 。 这 
就 给 我 们 带 来 了 神经 网 络 的 男 一 个 主要 优点 ， 它们 的 权重 很 容易 通过 
数据 被 学 习 。 


我 在 图 8.3 中 展示 了 万 能 近似 定理 。 首 先 ， 请 看 图 8.3 (a) 中 的 笑 
脸 图 片 。 这 是 我 们 想 用 神经 网 络 “ 预 测 * 的 目标 。 图 8.3 中 的 其 余 图 片 显 
示 了 几 个 有 中 间 层 的 神经 网 络 近似 笑脸 目标 的 效 末 。 输 入 和 输出 之 间 
的 层 有 时 被 称 为 隐藏 层 ， 因 为 我 们 不 直接 观 绎 它们 的 值 。 每 个 网 络 的 
输入 层 是 两 个 神经 元 ， 它 们 被 设置 为 图 像 中 每 个 像素 的 x 坐 标 和 y 坐 
标 。 每 个 网 络 的 输出 是 一 个 神经 元 ， 它 描述 了 这 些 坐 标 处 的 像素 的 明 
音程 度 : 0 代表 黑色 ，1 代 表白 色 。 当 我 们 在 网 络 的 中 间 层 ( 即 网 络 的 
隐藏 层 ) 添加 更 多 的 神经 元 时 ， 它 就 能 越 来 越 好 地 近似 笑脸 目标 。 
8.3 (c) 是 有 200 个 隐藏 神经 元 的 神经 网 络 效 果 ， 我 们 可 以 看 到 它 有 一 
点 像 笑脸 ， 而 图 8.3 (d) 是 有 2000 个 隐藏 神经 元 的 神经 网 络 效果 ， 我 
们 可 以 看 到 它 非 常 像 笑脸 。 


这 种 有 一 个 隐藏 的 中 间 层 的 网 络 ， 是 我 们 可 以 用 来 表示 从 输入 神 
经 元 到 输出 神经 元 的 任意 映射 的 最 “ 浅 ? 的 网 络 。 如 采 我 们 去 掉 中 间 
层 ， 将 输入 神经 元 直接 连接 到 输出 神经 元 ， 那 么 网 络 的 表现 力 吏 不 会 
那么 强 。 此 时 我 们 近似 出 的 笑脸 形 如 一 个 灰色 的 方 框 ， 在 某 个 方向 上 
从 浅 灰 色 渐 变 到 深 灰 色 。 我 们 既 看 不 到 眼睛 也 看 不 到 嘴巴 。 因 此 ， 输 
入 层 和 输出 层 之 间 至 少 需 要 一 个 隐藏 层 。 


图 8.3 通过 几 个 经 过 训练 的 神经 网 络 (b ^ c^ d) 来 表现 目标 图 像 (a) 的 效果 。 该 神经 网 络 以 
图 像 中 每 个 像素 的 x 坐 标 、y 坐 标 作为 输入 ， 预测 每 个 像素 在 EEM R 


万 能 近似 定理 也 没有 说 明 网 络 的 中 间 层 必须 有 和 多大， 才能 像 我 们 
硕 望 的 那样 近似 笑脸 。 我 们 可 能 需要 亿 万 个 隐藏 的 神经 元 ， 来 表现 超 
出 人 类 感知 极限 的 面孔 ， 就 像 我 们 可 能 需要 类 似 网 络 的 隐藏 层 中 有 数 
百 万 个 神经 元 来 玩 雅 达 利 游戏 一 样 。 这 个 观察 结 采 对 于 我 们 构建 雅 达 
利 游戏 智能 体 的 目标 非常 重要 ， 因 为 这 样 的 网 络 可 能 太 过 庞大 ， 无 法 
被 存储 在 磁 副 上 ， 或 是 无 法 训练 数据 ， 束 像 最 初 的 多 维 数 据 集 一 样 。 
这 束 古 我 们 试图 把 所 有 这 些 信 息 都 放 进 一 个 隐藏 层 中 所 付出 的 代价 ， 


但 这 并 不 意味 着 我 们 无 法 设计 一 个 更 简单 的 网 络 ， 用 其 他 方式 玩 雅 达 
利 游戏 ， 例 如 ， 使 用 更 多 的 层 ， 每 层 的 神经 元 更 少 。 


在 我 们 为 雅 达 利 智能 体 构建 网 络 之 前 ， 我 们 需要 回答 两 个 问题 : 
我 们 应 该 选择 哪 种 结构 的 神经 网 络 ? 我 们 如 何 选择 它 的 权重 ? 在 本 章 
的 余下 部 分 ， 我 将 回答 这 些 问题 ， 我 们 将 再 次 使 用 高 尔 夫 球 游戏 来 构 
建 网 络 。 
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雅 达 利 游戏 神经 网 络 的 结构 


在 图 8.4 中 ， 我 展示 了 一 个 专门 为 玩 蜗 尔 夫 球 游戏 设计 的 神经 网 
络 。 它 有 一 个 输入 层 获取 智能 体 的 当前 位 置 ， 一 个 输出 层 预 测 智能 体 
应 该 瞄准 8 个 方 同 中 的 哪 一 个 ， 还 有 一 个 庞大 的 隐藏 层 。 


在 这 个 网 络 中 ， 我 们 把 输入 神经 元 的 值 设置 为 高 尔 夫 球 当前 的 位 
置 坐 标 。 当 我 们 运行 网 络 时 ， 输 入 神经 元 会 激活 中 间 隐 藏 层 的 神经 
元 ， 然 后 隐藏 层 的 神经 元 会 激活 输出 神经 元 。 我 们 希望 用 网 络 的 输出 
值 近似 我 们 在 上 一 章 看 到 的 多 维 数据 集中 的 值 。 给 定 球 的 位 置 ， 网 络 
的 输出 值 应 该 等 于 智能 体 在 选择 某 个 动作 时 期 望 得 到 的 未 来 的 时 间 调 
整 奖 励 ， 即 未 来 的 巧克力 数量 。 一 旦 我 们 计算 出 这 个 网 络 的 权重 ， 智 
能 体 就 能 根据 它 在 球场 上 的 位 置 来 设置 网 络 的 输入 神经 元 ， 然 后 计算 
网 络 以 生成 其 8 个 动作 的 值 ， 选 择 权重 最 高 的 动作 并 执行 这 个 动作 ， 然 
后 重复 这 个 过 程 ， 以 此 来 选择 它 的 移动 。 


球 的 当前 位 置 操纵 杆 方向 
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击 签到 它 。 我 将 在 下 一 章 中 解释 如 何 用 数据 “训练 ?神经 网 络 ， 但 是 现 
在 你 只 需要 知道 这 征 可 能 的 。 因 为 万 能 近似 定理 告诉 我 们 ， 神 经 网 络 
的 架构 是 奏效 的 ， 我 们 已 经 在 图 8.3 中 笑脸 的 例子 里 看 到 了 它 的 效果 。 
因 故 我 们 从 坐标 开始 ， 所 以 网 络 不 需要 太 庞 大 ; EDU ERAT STIS 
能 体 移动 方 同 的 8 个 不 同 的 映 映 ， 每 个 映射 对 应 一 个 输出 方向 。 
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入 吗 ? 我 在 这 里 作弊 了 ， 把 球 在 球场 上 的 坐标 作为 神经 网 络 输入 ， 而 
没有 使 用 表示 球场 的 像素 。 这 很 容易 解决 : 我 们 可 以 通过 在 网 络 的 开 
台 添 加 更 多 的 层 来 把 原始 像素 转换 成 球 在 球场 上 的 坐标 。 这 将 是 我 们 
创建 可 以 玩 雅 达 利 游戏 的 神经 网 络 的 最 后 一 次 飞 路 。 


我 在 图 8.5 中 完成 了 这 个 过 程 。 这 个 网 络 的 右边 两 层 执 行 我 们 在 上 
图 中 看 到 的 完全 相同 的 功能 ， 将 当前 位 置 转换 为 预测 巧克力 奖励 的 输 
出 值 。 因 此 我 们 只 需要 让 目 己 相信 ， 左 边 两 层 可 以 将 图 像 转 换 为 高 尔 
夫 球 的 坐标 。 


这 两 层 是 怎么 做 到 的 ? 一 种 方法 是 使 用 卷 积 层 作 为 第 一 个 隐藏 
层 。 神 经 网 络 的 卷 积 层 包 含 识别 原始 输入 图 像 中 的 物体 〈 比 如 球 或 球 
洞 ) 的 分 类 器 。 每 个 分 类 器 (在 本 例 中 ， 我 们 在 技术 上 只 需要 一 个 分 
类 器 来 识别 球 的 位 置 ) 都 要 被 应 用 到 输入 图 像 中 每 8x8 的 像素 块 上 。 
这 一 层 的 输出 包含 每 个 分 类 右 的 一 个 图 像 。 每 个 输出 图 像 的 每 个 像素 
都 十 将 分 类 句 应 用 于 输入 层 中 相应 像素 块 上 的 结果 。 如 来 与 分 类 器 不 
匹配 ， 结 果 则 为 黑色 ， 反 之 则 为 日 色 。 


在 图 8.6 中 ， 你 可 以 看 到 一 个 分 类 需 的 工作 原理 ， 它 显示 了 一 个 使 
用 3x3 像 素 块 而 不 古 8x8 像 素 块 的 着 积 。 在 图 中 ， 分 类 右 预 测 原始 图 像 
中 的 每 个 像素 块 是 否 与 某 个 模式 匹配 。 卷 积 层 生成 与 输入 图 像 对 齐 的 
图 像 ， 并 摘 述 这 个 图 像 的 哪 一 部 分 与 过 滤 右 正在 查找 的 图 像 匹 配 。 


球场 上 的 
当前 位 置 


操纵 杆 方向 


图 8.5 为 高 尔 夫 球 游戏 设计 的 神经 网 络 。 石 边 两 层 ， 即 从 “球场 上 的 当前 位 置 ”到 “操纵 杆 方 
向 ”， 根 据 球 和 目标 的 当前 位 置 决定 智能 体 应 该 瞄准 哪里 ， 左 边 两 层 将 屏幕 的 像素 转换 成 坐标 


图 8.6 有 两 个 过 滤器 的 卷 积 层 。 每 个 过 滤器 扫描 图 像 并 生成 一 个 结果 图 像 ， 图 像 中 每 个 像素 都 
对 应 于 通过 该 过 滤器 的 输入 图 像 的 一 个 像素 块 


这 些 分 类 器 是 如 何 工 作 的 ? 每 个 分 类 器 只 是 一 个 加 权 平 均 分 类 
硕 ， 类 似 于 我 们 在 《世界 最 佳 儿 鞋 食谱 》 中 使 用 的 分 类 器 ， 后 面 可 能 
还 有 一 个 压缩 函数 (在 接 下 来 的 几 页 ， 我 会 详细 介绍 这 个 函数 ) 。 请 
记 住 ,这 只 是 神经 网 络 中 的 一 个 神经 元 而 已 。 卷 积 层 输出 的 每 个 像素 
都 古 一 个 神经 元 ， 其 权重 对 应 于 分 类 器 的 权重 。 


为 了 更 形象 地 解释 这 个 过 程 ， 我 们 假设 高 尔 夫 球 场 是 一 个 灰 度 图 
像 ， 我 们 使 用 上 一 章 中 的 球 洞 和 球 的 初始 位 置 。 图 8.7 (a) 和 图 8.7 
(b) 分 别 显示 了 区 分 图 7.3 (a) 中 高 尔 夫 球场 上 的 旗杆 和 球 的 分 类 器 
的 权重 。 当 这 些 过 滤器 恰好 分 别 位 于 旗杆 或 球 的 正 上 方 时 ， 它 们 就 会 
激活 ， 即 生成 数值 1， 否 则 它们 会 生成 数值 0。 如 果 你 稍微 细 看 一 下 ， 
就 会 发 现 图 8.7 (a) 中 的 过 滤器 显然 有 点 像 旗杆 ， 图 8.7 (b) 中 用 于 区 
分 球 的 过 滤 絮 则 不 太 直 观 。 被 深 色 像 素 包 围 的 浅 色 像素 ， 这 才 是 球 的 
定义 特征 。 


这 些 卷 积 过 滤器 的 输出 是 两 幅 图 人像， 每 幅 图 像 都 十 对 原始 图 像 应 
用 其 中 一 个 分 类 器 的 结果 ， 如 图 8.8 所 示 。 输 出 的 图 像 大 部 分 是 黑色 
的 ， 但 两 个 图 像 中 各 有 一 个 神经 元 发 光 ， 这 代表 过 滤器 在 此 处 从 输入 
图 像 中 找到 了 它 的 模式 。 


从 第 二 层 到 第 三 屋 ， 我 们 只 需要 将 黑 日 图 像 中 的 所 有 像素 映 味 到 
日 色 像 素 的 坐标 上 。 网络 并 不 知道 图 像 中 某 一 位 置 的 像素 周围 是 什 
么 ， 它 只 是 把 每 幅 图 像 看 作 一 大 串 数 了 字 。 然 而 ， 网 络 可 以 看 足够 多 的 
数据 ， 并 将 每 个 神经 元 的 坐标 编码 到 权重 中 ， 以 此 来 学 习 从 每 个 像素 
到 其 位 置 的 映射 ， 如 图 8.9 所 示 。 


现在 事实 证 明 ， 最 后 一 步 ， 也 就 是 将 卷 积 层 的 输出 转换 成 坐标 ， 
对 于 解释 网 络 中 发 生 的 事情 大 有 用 处 ， 但 这 并 不 是 网 络 工作 必须 要 有 
的 步 又。 因为 在 把 球 的 位 置 转换 成 坐标 后 ， 我 们 没有 压缩 神经 元 的 
值 ， 所 以 从 数学 上 讲 ， 把 卷 积 层 的 输出 完全 连接 到 输出 前 的 最 后 一 层 
隐藏 层 ， 并 设置 权重 来 解释 这 一 点 是 可 能 的 。 这 样 我 们 整 可 以 跳 过 中 
间 层 ， 而 中 间 层 完整 地 存储 了 球 的 坐标 。 


下 夫 球 的 卷 积 过 滤器 


高 尔 


球 洞 中 插 的 旗杆 和 (b) 


图 8.8 有 两 个 过 滤器 的 卷 积 层 。 过 滤器 是 扫描 输入 图 像 以 寻找 特定 模式 的 分 类 器 。 每 个 过 滤器 


的 输出 都 是 一 组 神经 元 ， 它 们 被 组 织 成 一 幅 图 像 ， 当 原始 图 像 中 的 像素 块 与 过 滤器 匹配 时 ， 
这 些 神经 元 就 会 发 光 


图 8.9 将 眷 积 层 中 的 白色 像素 转换 为 坐标 的 层 。 此 图 中 ， 像 素 与 给 出 x 坐 标的 神经 元 之 间 的 权 
重 等 于 该 像素 的 x 坐标 ， 而 像素 与 给 出 y 坐 标的 神经 元 之 间 的 权重 等 于 该 像素 的 y 坐 标 。 如 果 左 
边 层 中 在 坐标 (4，3) 处 的 神经 元 亮 起 ， 值 为 1， 并 且 所 有 其 他 神经 元 都 是 暗 的 ， 那 么 这 一 层 
的 输出 值 将 反映 这 一 点 : 输出 结果 为 x=4 和 y=3 


由 此 ， 我 们 构建 了 一 个 本 质 上 与 玩 雅 达 利 游戏 的 神经 网 络 类 似 的 
网 络 。 第 一 层 是 着 积 屋 ， 它 查找 屏 侨 上 的 物体 ， 把 结 琳 压 缩 到 0 和 1 之 
间 。 然 后 ， 这 一 层 完 全 连接 到 具有 32 个 单元 的 隐藏 层 ， 然 后 是 为 一 个 
压缩 男 数 ， 它 的 结 采 完全 连接 到 输出 层 ， 输 出 层 的 值 表示 智能 体 在 执 
行 不 同 动作 时 预期 得 到 的 时 间 调整 奖励 流 。 


这 个 网 络 和 雅 达 利 游戏 智能 体 使 用 的 网 络 有 一 些 不 同 。 在 高 尔 夫 
球 游戏 中 ， 我 们 使 用 了 两 个 过 滤器 (我 们 只 需要 使 用 一 个 ) ， 但 是 雅 
达 利 游戏 智能 体 在 它 的 第 一 个 卷 积 层 中 使 用 了 32 个 独立 的 过 滤 絮 。 第 
一 层 的 输出 随后 被 放置 到 32 个 独立 的 图 像 中 ， 只 要 原始 图 像 与 相应 的 
过 滤 卓 匹配， 那个 地 方 的 图 像 束 会 发 光 。 由 于 它 有 32 个 过 滤 右 ， 它 可 
以 搜索 各 种 各 样 的 物体 ， 从 《 兵 乓 球 》 游 戏 中 的 球拍 到 《太空 入 侵 


者 》 中 的 外 星人 和 宇宙 飞船 。 你 可 以 在 图 8.10 中 看 到 如 何 使 用 几 个 过 
滤器 应 用 这 种 方法 的 示例 。 


18.10 雅 达 利 神经 网 络 的 卷 积 层 。 第 一 层 显 示 了 网 络 的 输入 : 游戏 的 屏幕 截图 〈 雅 达 利 网 络 
实际 上 使 用 了 最 新 的 4 张 屏 幕 截 图 ) 。 第 二 层 是 卷 积 层 ， 使 用 32 个 过 滤器 在 第 一 层 中 搜索 32 种 


不 同 的 像素 模式 。 应 用 每 个 过 滤器 之 后 的 结果 是 32 幅 图 像 ， 除 了 屏幕 截图 中 与 过 滤器 匹配 的 
部 分 之 外 ， 图 像 的 其 他 部 分 都 接近 于 0 


此 外 ， 雅 达 利 游戏 网 络 还 比 高 尔 夫 球 游戏 网 络 拥有 更 多 的 卷 积 
层 。 这 些 层 堆 琶 在 一 起 ， 所 以 一 层 的 输出 殊 是 下 一 层 的 输入 。 较 新 版 
本 的 网 络 有 三 个 卷 积 层 ， 之 后 是 两 个 相同 的 全 连接 层 忆 。 通 过 使 用 三 
个 眷 积 层 ， 他 们 的 网 络 可 以 找 出 更 复杂 的 输入 图 像 模式 。 在 下 一 章 
中 ， 当 人 研究 深度 神经 网 络 如 何 准 确 解 释 照 片 的 内 容 时 ， 我 们 会 更 加 直 
观 地 了 解 为 什么 这 种 方法 会 奏效 。 


这 个 乔 能 体 的 架构 有 点 像 斯 坦 利和 Boss。 你 可 以 把 图 8.11 的 雅 达 
利 游戏 智能 体 的 架构 与 图 4.2 的 Boss 的 架构 进行 比较 。 二 者 的 一 个 重要 
部 分 都 是 将 组 件 划分 为 感 拓 发 和 推理 层 。 雅 达 利 游戏 智能 体 的 感知 音 
分 是 神经 网 络 ， 它 把 屏幕 上 的 原始 像素 转换 为 游戏 环境 中 的 有 用 特 
征 。 雅 达 利 游戏 智能 体 的 推理 部 分 不 过 是 一 个 程序 ， 它 不 断 查 看 神经 
网 络 的 输出 值 ， 选 择 输出 值 最 高 的 动作 。 你 甚至 可 以 把 这 种 动作 选择 
循环 解释 为 一 种 非常 向 单 的 “搜索 ”算法 ， 它 的 目标 是 从 8 个 动作 中 搜索 
出 最 佳 动作 o 


游戏 学 习 环 境 感知 推理 


物体 检测 与 建 模 


1 卷 积 神经 网 络 J 


操纵 杆 控制 


图 8.11 雅 达 利 游戏 智能 体 的 架构 


1. ”全 连接 层 是 指 每 个 季 点 都 与 相 邻 层 的 其 他 节 点 连接 的 层 。 一 一 译 者 注 


深入 研究 神经 网 络 


在 很 多 方面 ， 雅 达 利 游戏 都 是 DeepMind 展 示 神 经 网 络 优势 的 完美 
试验 人 台 。 雅 达 利 游戏 为 智能 体 提 供 了 明确 的 目标 函数 一 游戏 得 分 ， 
同时 为 DeepMind 提 供 了 几乎 无 限 的 数据 来 训练 它 的 网 络 。 由 于 阿尔 人 
塔 大 学 的 研究 人 员 开 发 了 “街机 学 习 环 境 "，DeepMind 才 可 以 专注 于 开 
发 一 种 能 玩 多 款 游戏 的 闹 能 体 ， 而 这 正 是 “街机 学 习 环 境 ” 创 建 者 的 愿 
望 。 正 如 我 们 将 在 第 9 章 看 到 的 ， 数 据 量 是 我 们 训练 复杂 神经 网 络 的 最 
重要 因素 之 一 。 


我 们 至 少 已 经 在 高 层次 上 看 到 了 神经 网 络 在 玩 雅 达 利 游戏 时 的 情 
况 。 但 许多 问题 仍 未 得 到 解答 。 例 如 ， 雅 达 利 游戏 养 能 体 什么 时 候 表 
现 不 佳 ? 虽然 智能 体 使 用 相同 的 神经 网 络 结构 ， 即 三 个 卷 积 层 后面 接 
着 两 个 全 连接 层 ， 但 是 对 于 每 一 款 游戏 ， 它 都 会 学 习 不 同 的 网 络 权 
重 。 经 过 训练 后 ， 它 在 29 款 游戏 中 比 专业 人 类 玩家 玩 得 更 好 。 


与 人 类 相 比 ， 神 经 网 络 在 雅 达 利 的 《 弹 球 》 游 戏 中 表现 最 好 。 在 
《 弹 球 》 游 戏 中 ， 智 能 体 最 重要 的 任务 是 对 游戏 中 的 一 个 相对 较 小 的 
部 分 〈 即 挡 板 击 球 的 位 置 ) 做 出 反应 。 当 球 接近 屏幕 底部 时 ， 神 经 网 
络 只 需 快速 准确 地 做 出 反应 即 可 。 该 游戏 还 允许 玩家 向 任意 方向 倾斜 
弹 球 机 ， 将 球 推 到 一 个 更 好 的 位 置 。 当 球 接近 屏幕 底部 时 ， 智 能 体 可 
以 使 用 这 种 倾斜 操作 完美 地 定位 球 的 位 置 。 因 为 这 个 网 络 可 以 学 习 运 
动 ， 而 且 能 以 机 器 的 精度 做 出 反应 ， 所 以 它 在 游戏 中 的 得 分 比 专业 人 
类 玩家 高 出 20 倍 。( 洁 ) 


而 在 游戏 《蒙特 祖玛 的 复仇 》 中 ， 智 能 体 则 表现 糟糕 。( 轧 ) 在 这 个 
游戏 中 ， 玩 家 需要 探索 迷宫 般 的 地 下 阿 兹 特 克 金字 塔 〈 想 想 带 梯子 的 
《超级 马里 奥 兄 第 》) 。 玩 家 在 不 同房 间 中 穿梭 ， 一 边 因 避 敌人 ， 一 


边 寻 找 宝石 。 对 智能 体 而 言 ， 第 二 困难 的 游戏 是 《私家 侦探 ) ， 玩 家 
必须 在 整 座 城市 中 寻找 线索 和 物品 。 


这 两 和 游戏 都 涉及 探索 ， 这 需要 玩家 在 游戏 中 始终 注意 环境 。 玩 
家 必须 记 住 已 经 做 了 什么 、 没 做 什么 、 去 了 哪里 、 接 下 来 要 去 什么 地 
方 。 雅 达 利 游戏 智能 体 无 法 做 到 这 些 ， 因 为 它 没有 记忆 。 它 无 法 记录 
访问 过 哪些 房间 、 没 访问 过 哪些 房间 、 做 过 什么 、 没 做 过 什么 。 


它 玩 不 好 这 些 游戏 还 有 男 一 个 相关 的 原因 。 还 记得 吗 ， 知 能 体 最 
初 古 通过 选择 完全 随机 的 动作 进行 目 我 训练 的 。 而 采取 随机 动作 无 法 
让 智能 体 在 需要 探索 的 游戏 中 取得 很 大 进展 。 在 《蒙特 祖玛 的 复仇 》 

， 知 能 体 只 是 在 房间 里 走 来 走 去 ， 很 少 能 罕 过 迷宫 的 第 一 个 房间 。 
由 于 无 法 在 探索 中 取得 很 大 进展 ， 它 无 法 获得 足够 的 分 数 来 学 习 有 用 
的 东西 。 稍 后 我 们 将 看 到 智能 体 记录 游戏 状态 的 一 些 方 法 ， 但 我 现在 
要 提醒 你 ， 我 们 不 会 得 到 我 们 需要 的 所 有 管 案 。 这 仍然 古 一 个 开放 的 
问题 ， 也 是 强化 学 习 人 研究 人 员 的 一 个 活路 的 研究 领域 。 


雅 达 利 游戏 智能 体 最 成 功 的 部 分 之 一 是 ， 它 能 通过 卷 积 神经 网 络 
感知 世界 。 与 此 同时 ， 相 对 较 新 的 深度 卷 积 网 络 在 过 去 几 年 迅速 发 展 
成 熟 ， 以 致 计算 机 分 类 照片 中 物体 的 能 力 已 经 超过 了 人 类 。 在 接 下 来 
的 几 章 中， 我 们 将 深入 人 研究 其 中 一 些 网 络 ， 以 便 更 好 地 理解 它们 如 何 
做 到 这 一 点 。 


1. 按照 这 个 评分 基准 ， 完 全 随机 的 智能 体 的 得 分 是 0 分 ， 人 的 得 分 是 100 分 。 
2. Volodymyr Mnih et al.,“Human-Level Control through Deep Reinforcement 
Learning,” Nature518,no.7540(2015):529-533. 


9 人 工 神 经 网 络 的 世界 观 


人 工 智 能 的 奥秘 


2016 年 ， 影 博 新 闻 社 的 一 位 记者 写 道 ， 几 家 初创 公司 已 经 开始 销 
售 智能 聊天 机 器 人 作为 私人 助理 。( 辐 其 中 有 一 款 机 器 人 名 叫 埃 米 . 英 格 
拉 姆 (Amy Ingram) ， 她 的 公司 推销 她 是 “能 为 你 安排 会 议 的 私人 助 
理 *”。 你 只 需要 把 电子 邮件 抄 送 给 埃 米 ， 她 束 会 开始 其 神奇 的 表演 。 埃 
米 “ 酶 似 人 类 的 语调 * 和 “能 说 会 道 的 不 几 谈 吐 ” 深 受 她 的 用 户 喜 欢 。 一 
名 用 户 说 她 “的 确 比 人 类 更 能 胜任 这 项 工作 ”。 有 些 男人 甚至 想 和 她 约 


会 。 


在 深入 了 解 埃 米 的 工作 原理 之 前 ， 我 们 先 回顾 一 下 在 她 亮相 之 前 
机 器 学 习 的 发 展 趋势 。 在 2006 年 之 后 的 大 约 10 年 里 ， 计 算 机 识别 图 像 
和 其 他 媒体 内 容 的 能 力 得 到 了 显著 提高 ， 这 得 益 于 一 种 被 称 为 “深度 神 
经 网 络 ” 的 技术 。 深 度 神 经 网 络 就 像 是 我 们 在 上 一 章 中 看 到 的 网 络 ， 但 
它 有 很 多 层 。 从 某 种 程度 上 讲 ， 深 度 神 经 网 络 如 今 在 识别 照片 中 的 物 
体 方面 比 人 类 更 胜 一 筹 ， 而 且 它们 已 经 拥有 了 艺术 才能 ， 例 如 用 画笔 
把 照片 绘制 成 < 画作 >， 反之， 对 于 一 幅 绘画 ， 它 们 还 能 创造 出 相片 般 
通 真 的 泻 染 效果 。 这 些 突破 是 许多 因素 ， 包 括 更 多 的 数据 、 更 好 的 便 
件 、 更 好 的 神经 网 络 结构 ， 以 及 训练 这 些 网 络 的 更 好 的 方法 带 来 的 。 


在 上 一 草 中 ， 我 们 学 习 了 将 神经 网 络 视 作 一 种 映射 ， 它 接受 一 些 
输入 (图 像 中 的 像素 ) 并 产生 一 些 输出 〈 执 行 操 纵 杆 动作 的 数值 ) 。 
这 与 神经 网 络 可 以 成 为 目 动机 组 成 部 分 的 事实 是 一 致 的 ， 重 要 的 是 ， 
从 输入 到 输出 的 映射 是 固定 的 ， 神 经 网 络 没 有 什么 不 可 思议 的 ， 也 没 


有 什么 不 可 预测 的 。 人 恰恰 相反 ， 它 们 完全 可 以 被 预测 。 神 经 网 络 是 确 
定性 画 数 (四 ， 是 由 网 络 中 的 人 工 神经 元 进行 的 简单 操作 组 成 的 ， 只 
我 们 仔细 观察 神经 网 络 ， 束 会 发 现 它 们 其 实 是 分 类 器 。 


我 们 还 了 解 到 ， 输 入 和 输出 之 间 有 一 个 隐藏 层 的 网 络 可 以 无 限 精 
确 地 表示 任意 画 数 ， 只 要 这 个 隐藏 层 足 够 大 。( 思 找到 这 个 画 数 只 需要 
像 调 万 旋钮 一 样 调整 网 络 的 权重 ， 直 到 我 们 无 论 给 网 络 什么 输入 ， 尼 
都 能 得 出 我 们 想 要 的 输出 。 正 如 我 在 上 一 章 中 提 到 的 ， 通 过 数据 训练 
神经 网 络 ， 它 束 可 以 目 动 拟 合 这 些 权重 。 


这 时 ， 我 们 可 能 会 停 下 来 问 目 己 ， 这 两 个 事实 十 否 足 以 说 明 我 们 
对 神经 网 络 的 理解 已 经 足够 充分 ， 可 以 转 癌 下 一 话题 ? 我 们 知道 ， 从 
理论 上 讲 ， 有 一 个 隐 汤 层 的 神经 网 络 可 以 表示 任意 玉 数 ， 我 们 还 知 
道 ， 通 过 给 网 络 提供 足够 多 的 数据 来 训练 它 古 可 能 的 。 然 而 ， 这 束 足 
1 T13? 


我 将 在 下 面 的 例子 中 说 明 答 案 是 断然 否定 的 。 知 道 可 以 通过 训练 
神经 网 络 来 识别 我 们 想 要 的 东西 仍然 无 法 揭示 重要 的 细节 ， 例 如 神经 
网 络 在 了 解 世 界 时 的 内 部 表示 有 征 什么 样 的， 网 络 如 何 对 照片 中 的 物体 
进行 分 类 ， 以 及 什么 时 候 网 络 效 果 不 佳 ? 如 采 我 们 想 要 了 解 神 经 网 络 
和 它们 构建 的 目 动 机 的 能 力 和 局 限 ， 那 么 了 解 这 些 细 市 对 我 们 而 言 至 
天 重要 。 让 我 们 暂时 把 话题 转 同 一 个 者 名 的 目 动 机 ， 来 获得 一 些 更 具 
体 的 经 验 教训 ， 说 明 为 什么 这 古 真 的 。 


1. Ellen Huet,“The Humans Hiding Behind the Chatbots,” Bloomberg 
News,April18,2016,accessed 
September25,2017,https://www.bloomberg.com/news/articles/2016-04-18/the-humans-hiding- 
behind-the-chatbots. 


2. Ellen — Huet,"The Humans Hiding Behind the Chatbots,"Bloomberg 
News,April18,2016,accessed 
September25,2017,https://www.bloomberg.com/news/articles/2016-04-18/the-humans-hiding- 
behind-the-chatbots. 


+ ERX (deterministic functions) ， 表 示 输 出 值 完 全 由 输入 值 决定 的 函数 。 


3. 确定 
一 一 详 者 注 
4. ”这 取决 于 某 些 形式 条 件 ， 以 及 万 能 近似 定理 。 
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国际 象棋 自动 机 “土耳其 人 > 


在 沃 康 松 发 明 长 简 演 奏 者 的 几 十 年 后 ，1770 年 ， 有 人 发 明了 一 个 
ADIN EL ^ KABA HE, ORBEA AMAL, CH 
STEAD ERBARIW ELA o ROLE ARTE-HKB RSS, BOF RR E RJ 
HERE 9 REISER EOLA, (RE ADEE ES A 
的 绝技 “骑士 之 旅 ”。 它 用 戴 着 手套 的 手 拿 棋子 ， 手 被 固定 在 木 制 的 手 
辟 和 驱 干 上 ， 它 可 以 用 符合 国际 象棋 规则 的 棋 步 让 “ 马 ” 从 任意 一 个 方 
格 开 始 移 动 ， 不 重复 地 逐一 跳 过 棋盘 的 64 个 方 格 。 


更 令 人 喷 喷 称奇 的 是 ， 这 个 奇怪 的 装置 还 是 个 国际 象棋 高 手 ， 它 
在 对 局 中 战胜 了 绝 大 多 数 人 类 棋 手 。( 汗 ) 


公众 对 这 个 闭 置 的 春 迷 程度 甚至 超过 了 长 省 演 雪 者 。 他 们 慢 慢 地 
了 解 到 ， 这 个 装置 是 国际 象棋 目 动 机 ， 人 们 有 时 简单 地 称 它 为 “土耳其 
人 ”， 这 得 名 于 它 的 头饰 和 服装 。( 电 装置 的 主人 把 它 带 到 欧洲 各 地 ， 
甚至 美洲 新 大 陆 的 部 分 地 区 ， 进 行 公开 演示 ， 越 来 越 多 的 观众 敬 豚 地 
采 着 它 ， 对 它 的 机 械 秘 密 感到 疑惑 不 解 。 它 甚至 在 巴黎 和 拿破仑 、 本 
术 明 :富兰克林 进行 了 传奇 般 的 对 局 。 


它 是 如 何 工作 的 呢 ? 怀疑 者 猜测 里 面 藏 着 一 个 小 孩 ， 但 是 装置 的 
主人 总 是 在 演示 前 向 观众 展示 它 的 内 部 结构 。 随 着 操作 员 一 个 接 一 个 
地 打开 各 种 抽 展 ， 观 众 把 “土耳其 人 ”的 工作 台 内 部 看 得 一 清二 楚 ， 他 
们 看 到 了 为 装置 提供 动力 的 很 多 类 似 钟表 结构 的 复杂 齿轮 ， 甚 至 听 到 
了 这 些 齿 轮 急速 旋转 的 声音 。 这 一 切 都 是 一 位 机 械 天 才 设 计 的 ， 他 其 
至 还 有 一 些 模糊 的 想法 ， 想 要 制造 蒸汽 机 和 复制 人 类 语言 的 装置 。 当 
操作 者 掀 开 * 士 耳 其 人 ”的 长 袍 ， 露 出 它 的 后 背 时 ， 观 众 看 到 的 只 是 木 
LANES 。 这 个 木 人 肯定 不 是 穿着 戏 服 的 真人 。( 济 更 让 人 困惑 的 是 ， 
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所 必需 的 ， 他 不 时 地 往 里 面额 视 。 人们 怀疑 这 个 小 盒 是 否 有 魔力 。 


随 着 《无 生命 的 理性 》 人 党 ;这 种 解读 此 类 现象 的 图 书 出 版 ， 人 们 
对 * 土 耳 其 人 ”的 猜测 众说 纷 经 。 与 沃 康 松 同 法 国 科学 院 分 享 其 装置 的 
工作 原理 不 同 ， 这 人 台 国 际 象棋 自动 机 的 历任 主人 始终 对 它 的 工作 原理 
讳 莫如 深 。 


“土耳其 人 ”最 终 在 其 被 创造 出 来 的 84 年 后 被 一 场 大 火 吞 哈 。 尽 管 
经 历 过 多 年 的 猜测 ， 这 侣 目 动机 的 秘密 在 它 的 一 生 中 从 未 被 完全 的 
开 。 两 代 人 以 来 ， 它 一 直 十 个 未 解 之 谜 。 


“土耳其 人 ”被 又 后 ， 它 的 最 后 一 任 主 人 的 儿子 意识 到 再 没有 理由 
保守 秘密 ， 所 以 他 在 一 系列 文 草 中 描述 了 这 人 台 机 如 。“ 土 耳 其 人 ”由 一 
位 藏 在 工作 台 里 的 专业 人 类 棋 手 操作 。( 冉 它 只 是 一 个 巨大 的 木偶 而 
已 ， 利 用 误导 和 一 些 巧妙 的 机 械 结构 欺 驴 观众 ， 让 观众 误 认 为 没有 人 
操纵 它 。 厂 置 里 有 和 磁铁， 可 以 把 棋盘 上 的 信息 传递 给 藏 在 工作 人 台 里 的 
木偶 操纵 者 ， 里 面 还 有 一 个 滑动 座 椅 ， 当 机 械 师 在 对 局 前 打开 各 种 抽 
屋 时 ， 滑 动 座 椅 可 以 把 棋 手 移出 观众 的 视线 。 对 局 时 ， 棋 手 在 黑暗 的 
书 人 里 借助 烛光 下 棋 ， 而 蜡烛 的 烟 恰好 又 被 烛台 的 烟 所 掩盖 。 神 秘 的 
棺材 似 的 盒子 和 次 轮 发 条 除了 分 散 观 众 的 注意 力 之 外 盈 无 用 处 。 这 有 完 
全 征 误 导 ， 一 个 让 “土耳其 人 ”看 起 来 像 是 被 其 他 力量 驱使 的 诡计 。 


1. Tom Standage, The Turk(New York:Berkeley Publishing Group,2002). 

2. 这 种 自动 机 最 近 更 多 地 被 称 为 机 械 “ 土 耳 其 人 ”， 不 要 将 它 与 亚马逊 士 耳 其 机 器 人 混 
iB e 

3. Gerald M.Levitt, Turk, Chess Automation(Jefferson, NC:McFarland&Company,2000). 

4. 《无 生命 的 理性 》 (Inanimate Reason) ， 由 卡尔 : 戈 特 利 布 : 冯 : 温 迪 施 (Karl 
Gottlieb von Windisch) 写 于 1784 年 。 书 中 写 道 : “fre KARA T AETSENEUT SU B 

事 ..….... 衙 在 窗户 旁边 的 座位 下 ， 离 那 卯 气 综 绕 的 机 器 远 远 的 。” 一 一 译 者 注 

5. 事实 上 ， 在 它 展 出 期 间 ， 多 位 国际 象棋 棋 手 都 操作 过 它 。 


神经 网 络 中 的 误导 


拥有 神秘 机 械 结构 的 “土耳其 人 * 的 例子 表明 ， 我 们 不 应 该 接受 “ 它 
因为 使 用 了 神经 网 络 而 可 以 工作 ”这 样 的 回答 ， 因 为 正 是 这 种 想法 让 人 
们 相信 了 * 土 耳 其 人 ”。 这 会 让 我 们 陷入 关于 人 工 智 能 的 一 些 毫 无 根据 
的 炒作 之 中 ， 而 我 们 的 注意 力 完全 可 以 更 好 地 集中 在 更 有 前 景 的 突破 
上 。 更 糟糕 的 是 ， 这 种 粗心 大 意 的 想法 可 能 会 让 我 们 轻信 自己 每 天 仍 
在 看 到 的 骗局 ， 像 土耳其 人 ”那样 的 骗局 。 例 如 ， 我 在 本 章 开头 描述 
的 人 工 智能 聊天 机 器 人 埃 米 - 英 格 拉 姆 就 是 一 个 这 样 的 骗局 。 然 而 ， 如 
果 你 看 一 下 她 公司 广告 中 的 细则 ， 便 可 能 推断 出 ， 人 类 可 以 随时 介 
入 。 你 可 能 会 称 之 为 "甜蜜 营销 "， 而 不 会 称 之 为 骗局 。 销 售 这 些 机 器 
人 的 几 家 公司 利用 全 天 在 幕后 工作 的 人 控制 机 器 人 。 例 如 ， 埃 米 就 是 
由 各 种 各 样 的 人 控制 的 ， 其 中 还 包括 一 个 名 叫 威 利 :卡尔 文 (Willie 
Calvin) 的 24 岁 的 小 伙 子 。 旺 


确保 我 们 不 会 落 入 骄 局 和 “甜蜜 营销 ”陷阱 的 方法 之 一 是 仔细 全 究 
这 些 装置 “正如 我 们 将 在 接 下 来 的 几 章 中 所 做 的 那样 ) ， 并 坚持 要 求 
它们 的 创造 者 明确 阐述 其 工作 原理 。 期 望 每 个 人 都 详细 了 解 这 些 事情 
征 不 现实 的 ， 人 们 都 很 已 ， 而 新 旧 目 动机 都 很 复杂 ， 它 们 背后 的 技术 
也 在 快速 变化 。 然 而 ， 在 这 种 情况 下 ， 我 们 仍然 可 以 坚持 要 求 科学 或 
工程 组 织 对 这 些 装 置 进行 仔细 审查 ， 就 像 法 国 科学 院 审 查 (然后 接 
Z) 添 康 松 提 交 的 论文 一 样 。 在 其 他 情况 下 ， 例 如 ， 当 公司 为 了 合理 
的 利益 而 保护 他 们 的 知识 产权 时 ， 你 束 可 以 更 好 地 做 好 目 己 判 断 的 准 
每 


基于 上 述 原因 ， 我 们 将 在 本 章 的 余下 部 分 着 重 深入 探讨 人 工 神 经 
网 络 ， 尤 其 是 深度 神经 网 络 工作 原理 中 的 一 些 细节 。 我 们 将 从 创建 一 


个 可 以 识别 狗 的 照片 的 神经 网 络 开始 。 接 下 来 的 几 章 会 涉及 一 些 细 
六 ， 但 我 们 会 从 中 受 花 菲 浅 ， 因 为 这 些 细 下 可 以 让 我 们 更 好 地 理解 神 
经 网 络 能 做 什么 ， 理 解 它们 如 何以 及 何 时 可 以 做 某 些 事情 。 


1. Huet,“The Humans Hiding Behind the Chatbots.” 


识别 图 像 中 的 物体 


我 们 想象 一 下 ， 你 已 经 设计 好 了 你 的 神经 网 络 ， 准 备 训 练 它 识别 
狗 的 照片 。 训 练 神经 网 络 的 过 程 就 像 强 化 学 习 一 样 ， 会 让 人 联想 到 用 
食物 训练 宠物 。 首 先 ， 我 们 选择 我 们 想 让 网 络 理解 的 图 片 。 这 个 “训练 
样 例 ” 便 是 一 张 我们 希望 神经 网 络 记 住 的 照片 ， 上 面 可 能 有 狗 ， 也 可 能 
没有 狗 。 为 了 让 网 络 理解 这 个 训练 样 例 ， 我 们 首先 需要 对 样 例 进行 数 
字 编 码 。 这 样 ， 我 们 便 可 以 用 数字 表示 出 图 片 中 每 个 像素 的 颜色 ， 以 
此 描述 图 片 。 因 为 每 个 像素 有 三 种 原色 ( 红 、 绿 、 蓝 ) ， 所 以 
300x200 的 图 片 要 用 180000 (300x200x3) 个 数字 表示 。 


一 旦 我 们 把 网 络 的 输入 神经 元 设置 成 这 些 数字 ， 束 可 以 运行 网 
络 ， 让 神经 元 通过 网 络 传播 信息 。 它 们 会 一 层 一 层 地 激活 (GET 
活 ) ， 直 到 在 末端 产生 一 个 输出 。 


在 上 一 章 中 ， 我 们 把 神经 网 络 中 的 神经 元 想象 成 天 闭 或 打开 的 小 
灯泡 ， 当 它们 的 激活 水 平 更 高 时 ， 小 灯泡 会 变 得 更 亮 。 一 旦 网 络 运 
行 ， 网 络 中 的 一 些 神经 元 吏 会 变 暗 ， 而 只 一 些 则 会 发 光 ， 有 些 可 能 会 
非常 明亮 地 发 区。 通常 ， 我 们 最 关心 的 是 网 络 输出 层 的 神经 元 有 多 
亮 ， 因 为 这 些 神 经 元 代表 了 我 们 想 要 预测 的 东西 。 由 于 我 们 正在 训练 
网 络 识别 狗 的 图 片 ， 于 是 假设 输出 层 恰好 只 有 一 个 神经 元 ， 我 们 称 之 
为 “ 狗 神经 元 ”。 如 果 这 个 神经 元 明 腕 发 光 ， 我 们 就 说 网 络 认 为 图 片 中 
有 狗 ， 而 如 果 神 经 元 征 上 暗 的 ， 那 么 网 络 则 认为 图 片 中 没有 狗 。 如 采 它 
TF 4 Ziel, BPR AOE SHAS, ARAM AR APE) BE Y, 
但 不 太 确 定 。 


一 旦 运行 网 络 来 预测 图 片 中 征 否 有 狗 ， 我 们 束 要 将 输出 神经 元 的 
亮度 与 我 们 的 训练 样 例 标 签 进行 比较 ， 样 例 的 标签 告诉 了 我 们 照 族 中 


征 否 真 的 有 狗 。 接 下 来 ， 我 们 对 训练 样 例 标 俭 进行 数字 编码 : RA 
FFA, WAL WRR, WAO. KE, WARIH E 
发 光 并 且 标 签 是 1， 或 者 神经 元 是 暗 的 并 且 标 签 是 0， 那 么 网 络 就 是 正 
确 的 ， 否 则 就 不 正确 。 然 后 ， 我 们 创建 一 条 新 消 奶 ， 搬 述 网 络 预 测 的 
误 吉 有 多 大 ， 并 通过 网 络 反 回 传 播 这 条 消 轧 ， 束 像 调 世 小 旋钮 一 样 调 
整 神 经 元 之 间 的 权重 ， 以 便 网 络 下 一 次 的 啊 应 可 以 稍微 好 一 点 。 当 网 
络 完全 正确 或 大 部 分 正确 时 ， 我 们 仍然 会 返回 信息 并 调 市 旋钮 ， 但 不 
会 进行 太 大 的 调整 。 


起 初 ， 网 络 通常 是 错 误 的 。 它 会 随机 猜测 。 但 随 着 时 间 的 推移 ， 
网 络 会 变 得 越 来 越 准确 。 在 训练 网 络 很 长 一 段 时 间 后 ， 我 们 会 越 来 越 
少 地 调整 它 的 权重 ， 这 束 像 你 的 收音 机 接近 你 想 要 的 音量 的 时 候 ， 你 


只 需 微调 音量 旋钮 。 


简 而 言 之 ， 这 就 是 许多 标准 神经 网 络 的 训练 方式 。 这 种 方法 虽然 
简单 ， 但 直到 20 世 纪 七 八 十 年 代 才 被 人 们 发 现 并 充分 理解 ， 而 神经 网 
络 此 前 已 经 存在 了 几 十 年 。 包 很 显然 ，“ 我 们 ”在 这 里 没 做 太 多 工作 。 
计算 机 为 我 们 完成 了 所 有 艰苦 的 工作 ， 我 们 只 需要 为 网 络 提供 尽 可 能 
多 的 训练 样 例 。 合 如 果 我 们 拟 合 网 络 对 图 像 进行 分 类 ， 就 要 用 一 个 接 
一 个 的 图 像 重 复 这 个 过 程 ， 直 到 网 络 不 再 改进 。( 于 只 要 有 足够 多 的 数 
据 和 足够 大 的 网 络 ， 我 们 就 可 以 训练 神经 网 络 去 识别 任何 我 们 想 让 它 
识别 的 东西 。 


如 果 你 竹 试 只 用 几 张 家 中 宠物 狗 的 照片 和 你 去 苏格兰 旅行 的 照片 
训练 你 的 神经 网 络 ， 效 采 束 不 会 很 好 。 更 有 可 能 的 是 ， 网 络 会 学 到 一 
个 简单 的 规则 ， 例 如 看 到 你 房间 的 颜色 束 会 预测 出 照片 中 有 狗 ， 而 看 
到 图 像 中 有 大 片 的 绿色 束 会 预测 出 照片 中 没有 狗 。 原 因 融 在 于 上 一 段 
中 提 到 的 一 名 至 关 重 要 的 话 : 只 要 有 足够 多 的 数据 和 足够 大 的 网 络 。 
一 切 部 取决 于 此 。 


o 


Yann LeCun, Yoshua Bengio,and Geoffrey Hinton, Deep Learning,"Nature521(2015). 


学 术 界 以 及 微软 、 谷 歌 和 脸 书 等 公司 的 研究 人 员 已 经 将 各 种 工具 组 
程序 员 设计 和 训练 网 络 变 得 更 简 A 
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过 度 拟 合 


拟 合 神经 网 络 最 大 的 挑战 之 一 是 ， 如 有 果 网 络 过 于 有 灵活， 或 者 没有 
足够 多 的 数据 来 训练 模型 ， 那 么 我 们 可 能 会 训练 出 这 样 一 个 模型 ， 它 
可 以 很 好 地 解释 训练 样 例 ， 但 不 能 解释 其 他 未 见 过 的 样 例 。 我 们 在 第 6 
章 “ 网 飞 公司 的 百 万 美元 大 奖 ” 的 例子 中 整 看 到 了 同样 的 问题 ， 这 种 风 
念 被 称 为 过 度 拟 合 。 过 度 拟 合 在 实践 中 又 是 什么 样 呢 ? 


在 图 9.1 (a) 中 ， 我 展示 了 一 小 部 分 数据 样本 。 此 时 ， 它 们 只 是 
坐标 系 中 的 一 个 个 点 (显示 输入 、 输 出 ) 。 假 设 我 们 想 为 这 些 点 建立 
一 个 模型 ， 即 给 定 输入 值 ， 产 生 预 估 的 输出 值 。 这 正 是 拟 合 神 经 网 络 
时 所 做 的 事情 : 拟 合 一 个 模型 来 预测 不 同 输入 值 的 输出 值 。 图 9.1 

(b) 是 我 拟 合 出 的 这 些 点 的 模型 。 模 型 是 一 条 曲线 ， 它 穿 过 或 接近 许 
多 点 。 根 据 这 个 曲线 模型 ， 你 可 以 看 到 模型 对 每 个 输入 值 的 预测 ， 包 
括 对 我 们 在 训练 中 看 到 的 输入 值 和 许多 在 训练 中 没 看 到 的 数值 。 


但 是 这 个 模型 存在 一 个 问题 : 尽管 它 很 好 地 匹配 了 训练 数据 ， 但 
它 不 太 可 能 很 好 地 解释 狐 数 据 。 该 模型 太 复 杀 了 。 它 对 数据 做 了 太 多 
的 假设 ， 所 以 它 曲 曲折 折 、 上 下 起 伏 。 过 度 拟 合 会 产生 问题 ， 因 为 它 
可 能 对 数据 做 出 不 合理 的 假设 ， 例 如 “照片 中 有 大 片 的 绿色 意味 着 照 厂 
中 没有 狗 *”。 我 们 还 没有 证 据 表明 更 简单 的 模型 不 会 更 好 ， 也 没有 足够 
多 的 数据 来 适应 复杂 的 模型 。 如 果 我 们 不 遵循 奥 卡 姆 剃刀 原则 ， 那 束 
征 我 们 的 芒 包 大 意 。 奥 卡 姆 剃刀 原则 告诉 我 们 ， 应 该 青睐 最 稍 单 的 模 
型 ， 因 为 我 们 的 数据 没有 令 人 信服 的 证 据 支 持 更 复杂 的 模型 。 (我 的 
一 位 语言 学 教授 曾 简 污 地 把 奥 卡 姆 剃刀 原则 解释 为 “保持 简单 ， 保 持 轧 
f") 
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图 9.1 RIEME: (a) 我 们 想 要 建立 的 模型 的 样本 点 (显示 输入 、 输 出 ) ; (b) 这 些 点 
的 复杂 的 过 度 拟 合 模型 (曲线) ; (c) 这 些 点 的 线性 模型 《直线 ) ; (d) 这 些 点 的 虽 复 杂 
却 不 过 度 拟 合 的 模型 (了 略微 弯曲 的 线 ) 


避免 过 度 拟 合 问题 ， 最 常见 的 方法 有 两 种 ， 一 是 使 用 更 简单 的 模 
型 ， 即 使 用 可 调 旋 钮 较 少 的 模型 ， 如 图 9.1 (c) 所 示 ; 二 是 把 更 多 的 
数据 用 于 复杂 模型 ， 如 图 9.1 (d) 所 示 。 上 述 两 种 方法 的 结合 也 是 可 
以 的 。 正 如 你 所 看 到 的 ， 当 有 很 多 数据 的 上 时候， 我 们 发 现 的 模型 看 起 


来 更 像 一 条 直线 ， 这 证 实 了 我 们 的 预感 ， 曲 线 模型 确实 过 度 拟 合 了 数 
据 。 


神经 网 络 特别 容易 出 现 这 种 过 度 拟 合 问 题 ， 因 为 网 络 中 的 神经 元 
之 间 可 能 有 数 十 亿 个 连接 ， 因 此 就 有 数 十 亿 个 可 调 的 旋钮 。( 时 如 果 没 
有 大 量 的 照片 训练 网 络 找到 狗 的 照片 ， 那 么 你 很 可 能 会 过 度 拟 合 神经 
网 络 。 研 究 人 员 通 利 把 上 文 提 到 的 两 种 方法 结合 起 来 解决 这 个 问题 : 
使 用 可 调 旋钮 较 少 的 网 络 ， 并 使 用 尽 可 能 多 的 数据 。 现 在 ， 我 们 开始 
探索 这 两 种 方法 ， 先 从 获取 大 量 数据 开始 。 


1. LeCun et al.,“Deep Learning.” 


ImageNet 


训练 神经 网 络 的 常见 照片 来 源 之 一 是 网 络 ， 但 不 幸 的 是 ， 网 络 上 
的 大 多 数 照 片 都 没有 被 明确 标注 过 。 使 用 这 样 的 数据 训练 神经 网 络 是 
可 能 的 ， 但 十 一 般 而 言 ， 锐 明确 标注 过 的 图 片 更 好 。 


我 们 首先 了 解 一 下 李 飞 飞 。 李 飞 飞 是 斯 坦 福 大 学 的 一 位 精力 充沛 
的 、 专 注 于 机 器 学 习 和 计算 机 视觉 的 教授 (她 还 曾 加 入 谷歌 ， 领 导 谷 
歌 云 的 人 工 智能 工作 ) 。 李 飞 飞 之 所 以 出 名 ， 在 一 定 程度 上 是 因为 她 
制作 了 大 量 标注 良好 的 图 片 集 ， 这 些 图 片 集 可 以 用 来 训练 计算 机 理解 
图 片 ， 并 评估 计算 机 理解 图 片 的 能 力 。 她 开始 这 项 工作 时 ， 正 在 开发 
一 种 算法 。 为 了 训练 和 评估 这 个 算法 ， 她 和 她 的 同事 翻阅 词典 ， 寻 找 
附 有 插图 的 条 目 来 搜集 图 片 。 她 和 她 的 同事 找到 了 可 以 作为 物体 类 别 
的 101 个 不 同 的 条 目 ， 此 时 他 们 使 用 谷歌 图 片 搜索 从 每 个 类 别 中 寻找 尽 
可 能 多 的 图 片 。 最 后 他 们 搜集 到 大 约 9000 张 图 片 ， 研 究 人 员 可 以 用 这 
些 图 片 来 训练 和 评估 自己 的 算法 © (©) 


认识 到 这 些 数据 的 巨大 用 处 后 ， 李 飞 飞 和 她 的 学 生 在 接 下 来 的 10 
年 里 开始 了 一 个 更 加 雄心 勃勃 的 项 目 : ImageNet 〈 意 为 “图 片 网 ”) 
她 和 她 的 同事 再 次 使 用 谷歌 图 片 搜索 搜集 了 各 种 类 别 的 图 片 ， 他 们 不 
断 调整 查询 ， 并 用 不 同 的 语言 发 起 查询 ， 以 获得 更 多 种 类 的 图 片 。 人 车 
在 此 之 后 ， 她 和 她 的 研究 团队 得 到 了 数 以 百 万 计 的 图 片 ， 但 有 些 图 片 
与 预期 的 类 别 并 不 匹配 。 例 如 ， 如 果 我 在 谷歌 图 片 搜索 中 搜索 “ 皮 
ME” (kayak) ， 其 中 一 个 结果 是 旅游 网 站 Kayak.com 的 商标 ， 而 我 想 要 
的 是 用 于 沿 河 旅行 的 小 船 的 图 片 。 为 了 过 滤 掉 这 些 图 片 ， 李 飞 飞 和 她 
H3 Br] EA FS mf Se BA 9 NE. Sy eh) te AE Las A” (Amazon Mechanical 
Turk) TE 
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这 些 任 务 的 计算 机 。 用 户 必须 向 网 站 提供 简单 的 说 明 ， 解 释 如 何 完成 
这 些 任 务 ， 然 后 为 每 个 任务 支付 一 小 笔 费用 。 李 飞 飞 和 她 的 团队 给 亚 
马 示 土 耳 其 机 右 人 提供 了 精确 的 指示 ， 要 求 计算 机 “告诉 我 们 这 张 图 片 
里 是 否 有 皮 艇 ”或 者 “告诉 我 们 这 张 图 片 里 是 否 有 超 罗 猎 "。( 央 一 旦 这 样 
的 任务 被 上 传 到 网 站 ， 计 算 机 束 会 按照 指示 处 理 这 些 任务 。 


亚马逊 士 耳 其 机 郁 人 之 所 以 得 名 ， 有 是 因为 它 与 上 文 描述 的 下 国际 
象棋 的 “土耳其 人 "一样 ， 它 的 “计算 机 ”并 不 是 真正 的 目 动机 一 一 他 们 ] 
古 真 人 ,通常 坐 在 目 己 家 的 电脑 前 。 网 站 把 服务 背后 的 人 “抽象 化 ”， 
让 人 感觉 这 些 任务 是 由 计算 机 目 动 执行 的 。 网 站 并 不 隐瞒 人 类 执行 这 
些 任务 的 秘密 ， 而 且 你 仍然 可 以 通过 有 限 的 方式 与 处 理 你 的 任务 的 人 
进行 交互 。 


李 飞 飞 从 谷歌 图 片 搜索 中 下 载 图 片 ， 使 用 亚马逊 士 耳 其 机 器 人 整 
理 它们 的 标签 ， 这 些 工作 的 结果 是 ，ImageNet 增 长 到 拥有 超过 1400 万 
张 高 分 辩 率 的 图 片 ， 标 注 的 类 别 超过 2.2 万 个 。 人 党 与 当时 的 其 他 基准 数 
据 集 相 比 ，ImageNet 提 供 了 多 出 一 个 数量 级 的 标注 图 片 。 虽 然 其 他 数 
据 集 可 能 有 猫 或 狗 的 类 别 ， 但 ImageNet 对 某 些 类 别 还 有 细 粒 度 标 签 。 
例如 ， 在 给 狗 标 注 的 120 个 不 同 的 标签 中 ， 有 达尔 马 提 亚 三、 荷兰 毛 狐 
RAKE MERE o ©} 


2010F, FK KERT— HLR, BAN “ImageNet ARLE it 14 5l 
挑战 赛 ”， 数 据 集 中 共有 来 自 1000 个 类 别 的 140 万 张 图 片 。 竞 赛 的 一 部 
分 是 要 求 研究 人 员 使 用 算法 识别 出 1000 个 类 别 中 的 哪些 物体 出 现在 
o 这 些 类 别 的 范围 很 广 ， 大 白 效 、 母 鸡 、 沙 漏 等 都 包含 在 其 中 。 


比赛 在 头 两 年 取得 了 一 定 的 进展 ， 识 别 错误 率 从 2010 年 的 28% 下 
降 到 2011 年 的 26%。 就 像 网 飞 奖 第 二 年 的 情况 一 样 ， 计 算 机 视觉 领域 
的 研究 人 员 多 年 来 已 经 摘 取 了 所 有 容易 摘 到 的 果实 。 每 年 ， 该 领域 都 
只 能 通过 添加 越 来 越 多 的 手工 特征 来 获取 小 幅 提 升 。 但 是 ，2012 年 发 
生 了 一 次 思考 模式 的 转变 ， 一 份 不 被 看 好 的 提交 成 果 成 为 ImageNet 挑 
战 赛 无 可 争议 的 赢家 。 这 份 提交 成 果 是 一 个 深度 神经 网 络 ， 它 的 错误 
率 为 16%， 远 低 于 前 一 年 的 26% « (9) 


1. Li Fei-Fei,Rob Fergus,and Pietro Perona,“Learning Generative Visual Models from Few 
Training Examples:An Incremental Bayesian Approach Tested on1010Object 
Categories,"Proceedings of the2004IEEE Computer Society Conference on Computer Vision 
and Pattern Recognition,Los Angeles,CA,2004,178—186. 


2 这 次 ， 他 们 没有 翻阅 字典 ， 而 是 使 用 了 WordNet (由 普林斯顿 大 学 的 心理 学 家 、 语 
言 学 家 和 计算 机 工程 师 联合 设计 的 一 种 基于 认 知 语言 学 的 英语 词典 ) 的 分 类 。 


3. Olga Russakovsky et al.,“ImageNet Large Scale Visual Recognition 
Challenge,” International Journal of Computer Vision115,no.3(2015):211—252. 
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4. 通常 ， 


Krizhevsky,llya Sutskever,and Geoffrey E.Hinton,“ImageNet Classification with Deep 
Convolutional Neural Networks,”Proceedings of the25th International Conference on Neural 
Information Processing Systems,Lake Tahoe, NV,December3-6,2012,1097—1105. 


6. Russakovsky et al.,“ImageNet Large Scale Visual Recognition Challenge.” 


7. 因为 一 张 图 片 可 能 包含 多 个 物体 ， 例 如 狗 、 天 空 、 陆 地 和 飞盘 ， 所 以 从 技术 上 讲 ， 
要 算法 识别 出 图 片 中 “前 5 名 ”的 物体 之 一 。 比 赛 还 有 一 个 不 同 的 、 更 困难 的 挑战 : 1 
图 片 中 的 所 有 物体 ， 并 描述 每 个 物体 的 位 置 。 
8. Russakovsky et al.,“ImageNet Large Scale Visual Recognition Challenge”;Large Scale 


Visual Recognition Challenge2016,UNC Vision Lab webpage, accessed 
June16,2017,http://image-net.org/challenges/LSVRC/2016/results. 
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卷 积 神经 网 络 


2012 年 ， 这 个 转变 了 思考 模式 的 网 络 被 称 为 AlexNet ( 意 为 “ 亚 历 
wo”) ， 它 古 以 论文 第 一 作者 的 名 字 命 名 的 。AlexNet 比 它 的 竞争 
对 手 做 得 更 好 有 几 个 原因 ， 其 中 两 个 原因 我 在 上 文 提 到 过 : BAK 
量 的 数据 进行 训练 的 ， 而 且 它 的 构建 方式 使 它 没有 太 多 的 权重 需要 调 
整 。 人 研究 人 员 设 计 的 网 络 结构 使 旋钮 的 数量 和 位 置 有 效 地 利用 了 他 们 
的 数据 。 事 实 上 ， 按 照 我 们 现在 的 标准 衡量 ，AlexNet 很 难 算得 上 准确 
高 效 ， 我 很 快 融会 解释 这 一 点 。 


让 我 们 回 到 我 们 的 目标 ， 使 用 AlexNet 建 立 一 个 可 以 检测 狗 的 图 片 
的 神经 网 络 。 与 玩 雅 达 利 游戏 的 网 络 一 样 ，AlexNet 也 是 一 个 卷 积 神经 
网 络 ， 它 使 用 一 系列 卷 积 层 ， 然 后 是 一 系列 全 连接 层 (如 图 9.2 所 示 ， 
卷 积 层 有 5 层 ， 全 连接 层 有 3 层 ) © 


这 种 卷 积 层 后 面 接着 全 连接 层 的 模式 ， 在 用 于 图 片 识别 的 网 络 中 
非常 常见 。 这 种 架构 完 葛 有 什么 特别 之 处 ， 使 它 能 够 在 各 种 应 用 中 获 
得 成 功 ? 
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19.2 AlexNet 是 赢得 2012 年 ImageNet 挑 战 赛 冠军 的 人 工 神经 网 络 ， 它 的 架构 为 图 像 分 类 的 进 
一 步 改 进 葛 定 了 基础 。AlexNet 有 5 个 卷 积 层 ， 然 后 是 3 个 全 连接 层 。 网 络 的 大 部 分 是 在 两 个 不 
同 的 处 理 器 上 进行 训练 的 ， 因 此 有 些 层 不 会 处 理 男 一 个 处 理 器 处 理 的 任何 输入 。 输 入 层 代表 
图 片 的 红 、 绿 、 鉴 数值， 输出 层 有 1000 个 神经 元 ， 对 应 于 网 络 预测 的 每 种 类 别 


请 回忆 上 一 草 ， 卷 积 层 通过 在 图 片 中 查找 物体 来 转换 图 片 。 每 个 
卷 积 层 都 有 一 组 过 滤 絮 ， 用 于 在 前 一 层 的 图 片 (或 多 张 图 片 ， 中 查找 
不 同 的 模式 。 着 积 层 用 每 个 过 滤器 立 过 前 一 层 中 的 一 个 个 神经 元 。 你 
可 以 将 其 想象 成 在 海滩 上 用 一 堆 神 奇 的 “物体 探测 器 ”寻找 不 同 的 物 
品 。“ 物 体 探测 右 ” 束 是 过 滤器 。 一 个 过 滤 紫 可 能 会 在 海滩 上 寻找 漂 吏 
的 贝 这 ， 而 男 一 个 过 滤器 可 能 会 寻找 海滩 游客 遗 落 的 手表 。 卷 积 层 的 
输出 是 海滩 映射 的 集合 ， 每 个 过 滤 吉 对 应 一 个 映射 。 如 有 宁 贝 壳 过 滤 志 
没有 在 独 片 的 任何 小 块 中 找到 与 其 模式 匹配 的 贝 达 ， 那 么 这 个 过 滤 央 
的 映射 在 所 有 地 方 都 是 瞳 的 ， 相 反 ， 它 在 发 现 贝 这 的 地 方 就 会 有 一 个 
膏 态 。 这 同样 运用 于 手表 探测 器 。 正 如 我 们 在 上 一 草 看 到 的 ， 如 末 过 
滤 右 在 卷 积 输入 的 某 个 位 置 发 现 强 匹配 ， 那 么 卷 积 输出 层 中 这 个 位 置 
的 神经 元 就 会 非常 明亮 。 
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不 切实 际 (或 许 对 玩 雅 达 利 游戏 的 网 络 而 言 也 是 如 此 ) 。 卷 积 层 中 的 
任何 一 个 过 滤器 都 不 可 能 识别 出 这 样 的 复杂 物体 ， 部 分 原因 是 第 一 层 
的 过 滤器 通常 非常 小 。 例 如 ， 在 AlexNet 中 ， 第 一 层 的 过 滤器 在 11x11 
的 像素 块 中 查找 模式 。 


如 果 这 些 过 滤器 无 法 从 像素 中 识别 出 外 星人 和 宇宙 飞船 ， 又 怎么 
能 识别 有 狗 的 照片 ? 更 不 用 说 识别 不 同 品种 的 狗 了 。 请 记 住 ，AlexNet 
有 5 层 卷 积 。 直 到 最 后 一 层 ， 网 络 才能 识别 出 像 狗 和 宇宙 飞船 这 样 的 复 
杂 物 体 。 在 理解 它们 如 何 做 到 这 一 点 之 前 ， 让 我 们 首先 回顾 一 下 第 一 
层 。AlexNet 的 第 一 层 卷 积 使 用 了 大 约 100 个 过 滤 絮 ， 这 意味 着 它 有 100 
个 神奇 的 “物体 探测 右 ”。 


我 展示 了 一 组 过 滤器 ， 类 似 于 AlexNet 卷 积 神经 网 络 中 的 过 滤器 ， 
如 图 9.3 (a) 所 示 。 图 中 的 每 个 方块 都 显示 了 一 个 像素 块 ， 它 会 点 亮 
第 一 个 郑 积 层 中 的 一 个 过 滤 侧 。 虽 然 你 无 法 在 这 些 黑 日 图 像 中 看 到 ， 
但 是 这 些 过 滤 郁 同样 匹配 不 同 的 颜色 ; 一 些 过 滤 套 倾 问 于 匹配 监 色 和 
日 色 ， 男 一 些 匹 配 黄 色 和 红色 ， 以 此 类 推 。 许 多 人 研究 人 员 将 这 些 过 滤 
妖 称 为 “ 边 毕 探测 紫 ”*"， 因 为 它们 匹配 输入 图 片 中 的 边缘 或 其 他 简单 模 
式 。 这 些 像素 块 看 起 来 可 能 没有 什么 意义 ， 但 是 当 它们 与 网 络 中 更 深 
层次 的 其 他 “边缘 探测 絮 ” 结 合 起 来 时 ， 束 变 得 有 意义 了 。 换 谨 之 ， 它 
们 是 网 络 中 的 下 游 层 次 使 用 的 构件 。 这 就 古 卷 积 神经 网 络 的 神奇 之 处 
真正 开始 展现 的 地 方 。 


AlexNet 剩 下 的 4 个 卷 积 层 中 每 层 都 有 几 百 个 过 滤器 。( 洼 每 个 连续 
的 卷 积 层 都 使 用 其 前 一 层 的 过 滤器 作为 构件 ， 将 它们 组 合成 更 复杂 的 
模式 。 第 二 个 卷 积 层 不 考虑 像素 ， 它 考虑 的 是 第 一 层 的 过 滤器 ， 即 图 
片 中 的 边缘 ， 然 后 构建 这 些 边缘 的 模式 来 进行 搜索 。 你 可 以 在 图 9.3 
(b) 中 看 到 其 中 的 一 些 模式 。 图 中 的 每 个 方块 表示 输入 图 像 中 的 哪些 
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物体 ， 但 很 明显 它们 开始 变 得 更 有 趣 了 : 有 些 看 起 来 有 点 像 毛皮 (这 
对 识别 狗 很 有 用 ) ， 而 有 些 看 起 来 像 讨 曲 的 弓形 〈 这 对 于 识别 蛇 、 嘴 
层 或 其 他 弯曲 的 物体 很 有 用 ) 。 


随 大 我 们 继续 深入 网 络 ， 卷 积 过 滤 絮 捕捉 的 成 分 变 得 越 来 越 复 
杂 。 你 可 以 在 图 9.3 (c) 和 图 9.3 (d) 中 看 到 第 三 个 和 第 四 个 卷 积 层 的 
过 着 磺 。 和 之 前 一 样 ， 每 个 方块 代表 一 个 像素 块 ， 这 些 像 素 块 可 以 高 
度 油 活该 层 中 的 某 个 过 滤器 。 此 处 ， 你 可 以 开始 辨认 出 物体 的 连贯 音 
分 : 一 些 像 素 块 似乎 是 动物 的 眼睛 ， 而 有 些 像素 块 似乎 是 较 大 块 的 毛 
诺 ， 还 有 一 些 似乎 是 动物 的 其 他 更 大 的 部 分 ， 有 一 个 甚至 看 起 来 有 点 
像 一 张 脸 ! 随 着 我 们 深入 AlexNet 的 卷 积 层 ， 这 种 不 断 增加 的 抽象 过 程 
仍 在 继续 。 
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图 9.3 AlexNett inex PW Har BUR HIER BUR, 第 一 个 、 第 二 个 、 第 三 个 、 第 四 个 着 
MEDAN (a) (b) (c (d) 。 这 些 过 滤器 可 以 搜索 明暗 模式 (它们 还 搜索 特定 的 颜 
色 ， 但 你 无 法 在 这 张 图 片 中 看 到 ) 


一 旦 罕 过 第 5 个 卷 积 层 ， 我 们 束 会 发 现 3 个 全 连接 层 。 pai 
有 1000 个 不 同 的 神经 元 ， 分 别 对 应 ImageNet 挑 战 中 的 每 一 个 类 别 。 
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在 图 9.4 所 示 的 4 张 图 中 ， 你 可 以 看 到 一 组 图 像 块 示例 ， 它 们 可 以 
点 亮 该 网 络 最 终 和 输出 层 中 的 一 些 神经 元 。 不 出 所 料 ， 点 亮 其 中 一 类 神 
经 元 的 图 像 块 往往 符合 我 们 的 直觉 : 点 亮 大 日 获 神 经 元 的 图 像 块 中 似 
乎 有 大 日 小， 点 腕 沙漏 神经 元 的 图 像 块 中 似乎 有 沙漏 。 令 人 慰 讶 的 
古 ， 这 些 图 像 中 的 物体 并 非 来 自任 何 一 张 图 片 ， 这 些 图 像 块 是 由 网 络 
目 身 生成 ， 以 精确 地 反映 每 个 神经 元 “寻找 ”的 内 容 的 。 


(c) (d) 


图 9.4 激活 网 络 输出 层 神 经 元 的 图 像 块 。 神 经 元 对 应 于 ImageNet 挑 战 赛 中 的 类 别 。 (a) KA 
1. (b) Wis; (c) 855; (a) 挂钟 
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络 ， 我 们 可 能 只 需要 对 AlexNet 稍 加 修改 : 我 们 只 需 删 除 (或 忽略 ) 所 
有 输出 神经 元 ， 除 了 那些 与 你 的 爱 太 最 匹配 的 神经 元 。 但 一 般 而 言 ， 


我 们 可 
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他 物体 匹配 ， 比 如 不 同 种 类 的 狗 ， 甚 至 是 猫 。 


1. 
2. 


望 傈 留 其 他 输出 神经 元 ， 因 为 这 有 助 于 了 解 图 片 是 否 与 
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Krizhevsky et al.,“ImageNet Classification with Deep Convolutional Neural Networks.” 
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图 像 中 的 位 置 方 


而 发挥 了 重要 作用 
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其 中 一 些 层 之 间 是 额外 的 层 ， 它 们 缩小 了 每 层 中 的 像素 数量 ， 使 下 游 处 理 更 容易 ， 
大 部 分 。 这 被 称 为 最 大 池 (max-pooling 
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为 什么 是 深度 神经 网 络 ? 


是 什么 让 深度 神经 网 络 ， 尤 其 是 AlexNet， 能 够 在 ImageNet 挑 战 赛 
中 发 挥 得 如 此 出 色 ? 网 络 的 架构 有 帮助 吗 ? 例如 ， 网 络 需要 那么 深 
吗 ? 我 们 已 经 知道 ， 只 有 一 个 隐藏 层 的 神经 网 络 可 以 表示 任意 复杂 的 
函数 ， 因 此 ， 至 少 从 理论 上 讲 ， 只 有 一 个 隐藏 层 的 网 络 应 该 可 以 完成 
ImageNet 挑 战 赛 。 


只 有 一 个 隐藏 层 的 问题 在 于 ， 我 们 无 法 保证 隐藏 层 无 须 变 得 非常 
庞大 就 能 表示 我 们 想 要 的 画 数 。 如 果 隐 藏 层 变 得 过 于 庞大 ， 也 就 是 大 
， 那 么 我 们 就 需要 学 习 太 多 的 权重 ， 如 果 没有 大 量 的 数据 ， 很 可 能 
过 度 拟 合 。 另 一 方面 ， 有 理论 证 据 表明 ， 通 过 让 隐藏 层 更 深 而 不 是 
宽 ， 我 们 可 以 更 有 效 地 表示 复杂 画 数 ， 也 就 是 说 ， 神 经 元 要 少 得 
， 因 此 我 们 需要 学 习 的 权重 也 要 少 得 多 © 
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为 什么 是 深度 而 不 是 宽度 让 网 络 更 有 效 ? 如 果 你 曾经 玩 过 任天堂 
Wii 游 戏 机 ， 那 么 你 很 有 可 能 创建 了 一 个 Mii。Mii 是 一 个 卡通 人 物 ， 代 
表 玩 家 角色 ， 也 就 是 你 。 它 是 你 在 某 些 任天堂 Wii 游 戏 中 的 化 喘 。 为 了 
创建 你 的 Mii， 你 需要 选择 眼睛 、 曙 子 、 皮 肤 颜色 、 头 发 以 及 其 他 各 种 
面部 和 身体 特征 ， 以 此 创建 一 个 看 起 来 像 你 自己 的 角色 。 对 于 每 个 特 
征 ， 你 都 有 一 些 选项 可 以 选择 ， 比 如 说 5 到 10 种 选择 。 虽 然 最 终 的 结果 
往往 更 卡通 化 ， 而 不 像 真 实 的 照片 ， 但 它 仍然 与 你 本 人 或 你 塑造 的 其 
他 人 有 着 惊人 的 《和 幽默 的 ) 相似 之 处 。 通 过 使 用 少量 的 构件 ， 眼 
青 、 上 鼻子 、 头 发 、 嘴 巴 以 及 Mii 角 色 的 其 他 所 有 共享 的 特征 ， 你 可 以 创 
建 各 种 各 样 的 Mi 角色， 这 些 角 色 可 以 忠实 地 代表 你 想象 的 任何 人 。 


现在 让 我 们 回顾 一 下 郑 积 层 的 优点 。 神 经 网 络 的 研究 人 员 认 为 ， 
卷 积 层 之 所 以 强大 ， 是 因为 它们 使 用 分 布 式 表示 来 处 理 图 像 。 它 们 可 


以 让 你 在 不 同 的 神经 元 之 间 重 复 使 用 组 件 。 如 采 你 的 神经 网 络 能 够 识 
别 120 种 不 同 品种 的 狗 ， 那 么 前 儿 层 束 可 以 专注 于 识别 我 们 用 来 描述 狗 
的 最 基本 的 特征 : 它们 可 能 拥有 的 不 同类 型 的 毛 度 、 耳 末 以 及 颜色 。 
然后 ， 更 深 的 层次 可 以 专注 于 以 各 种 方式 组 合 这 些 不 同 的 “基本 元 
素 *”。 正 如 你 可 以 使 用 各 种 被 明确 地 定义 且 可 重复 使 用 的 面部 和 身体 特 
征 构 建 Mi 一样， 更 高 层次 的 卷 积 层 也 可 以 用 早期 卷 积 层 中 发 现 的 特征 
构建 物体 ， 比 如 狗 。 这 个 过 程 可 以 在 每 一 层 重复 ， 使 每 一 层 所 能 代表 
的 物体 呈 指 数 级 增长 。 可 以 想象 ， 在 网 络 能 够 识别 狗 和 人 的 那 一 层 后 
面 的 层次 上 ， 可 能 会 出 现 可 以 解释 整个 场景 的 神经 元 。 例 如 ， 你 可 能 
有 识别 休闲 公园 的 神经 元 (利用 网 络 中 早期 识别 狗 、 人 和 游乐 场 设备 
的 神经 元 ， 或 者 可 能 有 识别 城市 环境 的 神经 元 (利用 识别 汽车 、 街 
道 和 商业 店面 的 神经 元 ) 。 在 下 一 章 中 ， 我 们 将 研究 可 以 为 这 样 的 场 
景 生成 字幕 的 神经 网 络 。AlexNet 的 创建 者 也 从 经 验 上 看 到 了 使 用 多 层 
网 络 的 好 处 。 如 果 他 们 删 掉 了 任何 一 个 卷 积 层 ， 那 么 网 络 的 性 能 束 会 
下 降 。(SfhmageNet 挑 战 赛 的 参赛 者 在 AlexNet 问 世 之 后 的 几 年 中 也 注意 
到 了 这 一 点 : 随 着 他 们 继续 构建 越 来 越 深 的 网 络 ， 他 们 在 挑战 赛 上 的 
表现 不 断 改 善 。 


2012 年 之 后 ， 许 多 在 ImageNet 挑 战 赛 中 提交 的 成 果 都 遵循 了 
AlexNet 的 思想 ， 使 用 了 深度 神经 网 络 。 尽 管 AlexNet 在 2012 年 遥遥 领 
先 ， 但 2013 年 ， 其 他 一 些 团 队 击败 了 AlexNet， 当 时 所 有 顶级 团队 都 使 
用 了 深度 学 习 。 在 一 个 以 往 每 年 都 收效 其 微 的 研究 领域 ， 随 着 研究 人 
员 继 续 改 进 他 们 最 心爱 的 新 玩具 ， 错 误 率 在 接 下 来 的 几 年 里 直线 下 
降 。2014 年 ， 合 歌 推出 的 网 络 在 某 些 指标 上 的 准确 性 超过 了 人 类 。 


2018 年 ， 就 在 我 写 这 本 书 的 时 候 ， 这 个 研究 领域 仍然 非常 活跃， 
而 且 硕果 累累 ， 因 为 研究 人 员 正 在 发 现 将 各 个 层 连 接 起 来 的 新 方法 。 
ImageNet 挑战 赛 中 表现 最 好 的 网 络 目前 的 错误 率 为 2.3% ,与 
AlexNet16% 的 错误 率 相 比 令 人 吃惊 。 披 正如 谷歌 大 脑 项 目 计算 机 体系 
结构 研究 员 、 加 州 大 学 伯克利 分 校 前 教授 戴 夫 : 帕 特 森 (Dave 


Patterson) 指出 的 那样 ， 即 使 是 这 个 领域 的 先驱 也 感到 震惊 ， 这 些 深 
度 学 习 的 方法 居然 如 此 卓有成效 。 


留意 网 络 深度 是 有 帮助 的 ，ImageNet 挑 战 赛 中 的 选手 把 他 们 的 网 
络 变 得 越 来 越 深 ， 达 到 了 看 似 荒 廖 的 程度 。 例 如 ， 谷 歌 设计 了 一 个 22 
层 的 网 络 ， 名 为 “ 盗 梦 空间 网 络 ”(Inception Network) ， 这 个 名 字 引 用 
了 2010 年 的 电影 《 盗 梦 空间 》 (Inception) 和 网 络 热 点 “我 们 需要 更 
深 ”(We need to go deep) 。( 轩 但 是 添加 更 多 层 会 增加 我 们 需要 调整 的 
参数 数量 ， 谷 歌 的 研究 人 员 如 何 做 到 如 此 深度 而 又 不 过 度 拟 合 呢 ? 一 
种 方法 是 认识 到 其 卷 积 层 中 的 神经 元 可 能 过 于 简单 (EXE, CMA 
加 权 平 均 分 类 器 ) 。 所 以 他 们 用 可 以 找到 更 复杂 模式 的 微型 网 络 取 而 
代 之 。 然 而 重要 的 是 ， 他 们 这 样 做 的 方式 是 每 层 使 用 较 少 的 参数 CB 
如 ， 两 个 3x3 过 滤器 和 一 个 1x1 过 滤器 ， 以 及 将 它们 组 合 起 来 的 3 个 权 
重 ， 总 共 需 要 22 个 参数 ， 而 一 个 笨拙 的 5x5 过 滤器 有 25 个 参数 ) 
像 * 盗 梦 空 间 网 络 > 这 样 的 深度 不 再 被 认为 是 极端 的 ， 现 在 ， 一 个 网 络 
有 10 到 20 层 深 ， 有 数 十 亿 个 权重 需要 调整 ， 这 样 的 网 络 屡见不鲜 。 有 
些 网 络 已 经 深 达 数 千 层 。 什 ) 


除了 深度 ， 人 研究 人 员 还 发 现 了 其 他 改善 网 络 的 方法 。 例 如 ， 他 们 
AGL, WARE RM RE ZOE, RiP A Sil ee 
层 ， 网 络 的 性 能 会 更 好 。 他 们 还 找到 了 一 种 方法 ， 让 神经 元 在 一 层 内 
相互 加 强 ， 这 个 过 程 被 称 为 激发 (excitation) 。 例 如 ， 当 卷 积 层 的 一 
部 分 识别 出 猫 的 毛皮 时 ， 激 发 的 作用 便 体现 了 出 来 : 这 是 一 个 信和 号， 
它 会 告诉 该 层 的 其 他 部 分 注意 寻找 相关 的 项 目 ， 如 猫 的 眼睛 和 猫 的 丘 
SE 
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4. Christian Szegedy et al.,“Going Deeper with Convolutions,"Proceedings of the IEEE 
Conference on Computer Vision and Pattern Recognition,2015,accessed 
December29,2017,http://arxiv.org/abs/1409.4842. 


5. LeCun et al.,“Deep Learning.” 


数据 瓶颈 


AlexNet 的 网 络 架 构 很 重要 ， 但 它 成 功 的 男 一 个 因素 是 研究 人 员 用 
来 训练 网 络 的 数据 具有 庞大 的 规模 。 他 们 使 用 了 120 万 张 来 自 比 赛 的 图 
请 ， 训 练 他 们 的 网 络 ， 但 是 ， 他 们 观察 到 “物体 的 特征 不 随 光 照 强度 和 
颜色 的 变化 而 改变 ”"， 于 是 他 们 通过 水 平 翻转 图 像 、 平 移 图 像 和 调整 闫 
色 平 衡 来 增加 训练 数据 。( 固 最终 ， 他 们 得 到 的 训练 数据 量 是 最 初 的 
2000 倍 ， 即 大 约 20 亿 张 用 来 训练 网 络 的 图 片 。 如 采 没 有 像 这 样 增加 训 
练 数据 ， 他 们 就 只 能 使 用 一 个 小 得 多 的 、 表 达能 力 差 得 多 的 网 络 。 伟 


对 于 如 此 海量 的 用 于 训练 的 图 片 ， 他 们 的 瓶 贷 并 不 在 于 能 将 多 少 
图 片 输入 网 络 中 ， 而 在 于 能 够 以 多 快 的 速度 输入 这 些 图 片 。 正 如 
AlexNet 的 创建 者 所 言 : 


最 后 ， 网 络 的 大 小 主要 取决 于 当前 (处 理 器 ) 可 用 的 内 存量 ， 以 
及 我 们 容许 的 训练 时 间 。 我 们 的 网 络 需 要 5~6 天 时 间 进 行 训练 .….. 我 们 
所 有 的 实验 都 表明 ， 只 要 等 来 更 快 的 (处理 器 ) 和 更 大 的 数据 集 ， 我 
们 的 结果 就 可 以 得 到 改进 © 


方便 的 是 ， 最 适合 训练 这 些 网 络 的 硬件 从 那 时 起 一 直 在 不 断 改 
进 。 训 练 神经 网 络 涉 及 执行 许多 和 抢 阵 运算 。 计 算 机 游戏 必须 执行 完全 
相同 类 型 的 操作 才能 呈现 高 质量 的 图 形 ， 在 过 去 儿 十 年 中 ， 显 卡 已 经 
得 到 了 优化 ， 以 支持 这 些 操 作 。 于 是 ， 深 度 学 习 人 研究 人 员 开 始 使 用 显 
卡 ， 因 为 显卡 可 以 将 训练 网 络 所 需 的 时 间 缩 短 至 原来 的 /50~1/10。 在 
深度 学 习 依 赖 于 计算 机 显卡 之 前 ， 执 行 这 些 操作 的 计算 机 显卡 市 场 就 
已 经 变 得 很 大 ， 而 且 竞 争 激烈 ， 这 迫使 显卡 的 价格 变 得 低廉 ， 直 到 过 
去 几 年 对 显卡 的 需求 回升 。( 人 四) 英 伟 达 是 显卡 的 主要 制造 商 之 一 ， 它 一 


直 像 印 报纸 一 样 生 产 显卡 ， 像 卖 烤 饼 一 样 销 售 显卡 ， 英 伟 达 还 开始 为 
自动 区 驶 汽车 生产 更 专业 的 硬件 。 这 些 事实 并 没有 被 它 的 投资 者 忽 
视 ， 他 们 愿意 在 2018 年 以 每 股 242 美 元 的 价格 购买 英 伟 达 的 宝贵 股票 ， 
而 英 伟 达 2015 年 时 的 股价 仅 为 每 股 20 美 元 。 与 此 同时 ， 谷歌 推出 了 专 
用 芯片 ， 这 些 芯片 的 速度 似乎 比 显卡 的 速度 又 提高 了 一 个 数量 级 。 人 四 


到 目前 为 止 ， 我 们 主要 关注 的 是 神经 网 络 如 何 让 计算 机 感知 图 像 
内 容 的 高 级 技术 细节 。 我 们 研究 了 神经 网 络 的 层次 组 织 方 式 、 训 练 方 
以 及 在 如 此 高 水 平 上 的 改进 如 何 推动 了 计算 机 感知 能 力 的 边界 。 
然而 ， 当 研究 人 员 一 直 在 寻找 从 安 观 层面 构建 这 些 网 络 的 有 效 方法 的 
时 候 ， 他 们 也 一 直 在 寻找 从 微观 层面 ， 即 单个 神经 元 层面 ， 改 善 这 些 
网 络 的 方法 。 根 据 神 经 元 的 输入 ， 改 变 网 络 中 神经 元 的 发 光 方 式 ， 可 
能 会 对 神经 网 络 保留 我 们 用 来 训练 它们 的 信息 的 能 力 产 生 惊 人 的 影 
啊 。 在 下 一 章 中 ， 我 们 将 更 仔细 地 研究 为 什么 会 出 现 这 种 情况 。 


1. Krizhevsky et al.,“ImageNet Classification with Deep Convolutional Neural Networks.” 

2. Krizhevsky et al.,“ImageNet Classification with Deep Convolutional Neural Networks.” 

3. Krizhevsky et al.,“ImageNet Classification with Deep Convolutional Neural Networks.” 

4. LeCun et al.,“Deep Learning”;Jiirgen Schmidhuber,“Deep Learning in Neural 
Networks:An  Overview,"Technical Report,The Swiss AI Lab IDSIA,University of 
Lugano&SUPSI,2014. 

5. LeCun et al.,“Deep Learning";Norman P.Jouppi et al.,“In-Datacenter Performance 


Analysis of aTensor Processing Unit,"Proceedings of the44th International Symposium on 
Computer Architecture(ISCA),Toronto,2017.5K2& (tensor) 是 物理 学 和 工程 学 中 常用 的 矩 
阵 的 推广 ， 最 近 在 深度 学 习 中 得 到 了 广泛 的 应 用 。 除 了 宽度 (一 个 维度 ) 和 高 度 Un 
个 维度 ) 之 外 ， 张 量 可 能 还 有 其 他 维度 。 
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计算 机 生成 图 片 


2015 年 6 月 10 日 ， 一 张 奇怪 而 神秘 的 图 厂 出 现在 了 互联 网 上 ， 它 被 
匿名 发 布 在 了 Imgurcom 网 站 上 。 乍 一 看 ， 这 张 图 片 中 像 有 一 两 只 松鼠 
在 窗台 上 休息 。 但 相似 之 处 仅 此 而 已 ， 当 你 更 仔细 地 观察 时 ， 你 可 以 
在 各 个 尺度 上 发 现 奇怪 的 细 和 和 物体 。 互 联网 上 的 这 张 图 乒 亦 真 罗 
幻 ， 驶 像 分 形 一 样 ， 松 鼠 脸 上 长 着 狗 虹 了 于， 这 里 有 一 座 神秘 的 宝塔 ， 
那里 有 一 个 人 的 红 干 ， 还 有 一 个 半 鸟 半 长 贷 慌 的 生物 ， 它 们 无 颖 地 髓 
入 这 张 图 片 的 细 方 。 每 个 角落 和 颖 隙 里 都 有 诡异 的 眼睛 问 外 张望 。 看 
着 这 张 照片 感觉 束 像 在 云 筋 中 寻找 物体 ， 只 不 过 这 不 是 你 的 幻想 。 或 
者 真 的 就 是 J] 想 ? 你 必须 再 看 一 过 才能 看 个 真切 。 


很 明显 ， 这 张 图 片 不 是 人 类 创造 的 。 它 太 离 奇 了 ， 不 可 能 是 照 
片 ， 它 的 细节 太 精 细 了 ， 不 可 能 是 插图 。 在 Imgur.com 上 发 布 这 张 图 片 
的 匿名 用 户 只 写 了 一 句 话 来 描述 它 : 


这 张 独 片 是 计算 机 目 己 生 成 的 《来 目 一 位 从 事 人 工 智能 工作 的 朋 
: (&) 


A) 

随 着 这 张 图片 开 始 传播 ， 网 民 试 图 理解 它 的 含义 。 合 歌 的 工程 师 
开始 生成 更 多 像 这 样 的 图 片 ， 并 相互 分 享 。 一 周 后 ， 他 们 发 表 了 一 篇 
博文 ， 解释 了 这 张 图 片 。 这 张 图 片 确 实 是 人 工 智能 (具体 地 说 是 人 工 
神经 网 络 ) 生成 的 。 这 个 人 工 智 能 被 称 为 “ 深 梦 ”(Deep Dream) 。 随 
着 这 些 图 片 的 出 现 ， 人 们 开始 问 一 些 隐藏 在 表面 之 下 的 令 人 不 安 的 问 


题 。 这 些 图 片 真 的 古 机 器 人 之 梦 吗 ? 我 们 是 否 了 解 这 些 神经 网 络 ? D 
究 人 员 有 是 否 在 重建 人 类 思维 方面 做 得 太 过 了 ? 


随 着 现代 实业 家 埃 隆 : 马 斯 克 (Elon Musk) 等 人 表达 了 各 自 的 担 
忧 ， 人 们 对 智能 机 器 的 关注 被 进一步 激 起 。 据 报道 ， 马 斯 克 投 资 
DeepMind 征 为 了 关注 人 工 智能 的 发 展 ， 他 担心 他 的 好 友 、 谷歌 创 始 人 
之 一 拉 里 . 佩 奇 (Larry Page) 可 能 “意外 制造 出 及 恶 的 东西 >， 更 确切 地 
H AE AR E A A BE HE A RGIA LIBE ee Las A” ° 


这 些 图 片 出 现 的 时 候 ， 我 们 已 经 知道 神经 网 络 在 玩 雅 达 利 游戏 和 
理解 图 像 内 容 方 面 非常 有 用 。 图 片 确实 引发 了 一 些 令 人 不 安 的 问题 ， 
但 正如 我 们 将 要 看 到 的 ， 神 经 网 络 能 够 很 好 地 玩 雅 达 利 游戏 的 原因 和 
它们 能 够 产生 迷 幻 梦境 的 原因 实际 上 有 是 密切 相关 的 。 尽 管 这 些 梦 境 起 
初 让 深度 神经 网 络 变 得 更 加 神秘 ， 但 事实 证 明 ， 这 些 梦 境 也 可 以 让 它 
们 变 得 不 那么 神秘 。 


1. Anonymous.Computer-generated image,June10,2015,accessed 
March8,2017,http://imgur.com/60cuQsZ. 


2. Maureen Dowd,“Elon Musk's Billion-Dollar Crusade to Stop the A.I. Apocalypse," Vanity 
Fair, April2017,accessed June16,2017,http://www.vanityfair.com/news/2017/03/elon-musk- 


billion-dollar-crusade-to-stop-aispace-x. 


压缩 函数 


在 神经 网 络 的 历史 中 ， 有 一 段 时 间 研 究 人 员 回 避 了 深度 架构 。 他 
们 有 万 能 近似 定理 ， 这 表明 他 们 可 能 不 需要 那么 深 的 网 络 ， 而 且 他 们 
在 实践 中 也 知道 深度 网 络 很 难 训练 。 但 是 深度 网 络 之 所 以 难以 训练 ， 
是 因 为 全 究 人 员 还 没有 发 现 让 网 络 中 的 神经 元 发 光 的 最 佳 方法 。 


还 记得 吗 ， 在 神经 网 络 中 ， 每 个 神经 元 都 是 一 个 简单 的 分 类 器 。 
神经 元 对 其 输入 进行 加 权 求 和 ， 并 用 某 种 方式 压缩 这 个 加 权 求 和 的 
值 ， 以 产生 输出 ， 如 图 8.2 所 示 。 这 个 压缩 函数 看 上 去 无 关 紧要 ， 但 事 
实证 明 它 对 我 们 训练 深度 网 络 非 常 重要 。 在 很 长 一 段 时 间 里 ， 研 究 人 
员 最 喜欢 的 神经 网 络 压缩 函数 都 遵循 我 在 图 10.1 (a) 中 所 示 的 S 型 曲 
线 。( 岂 这 条 S 型 曲线 取 前 一 层 神经 元 亮度 的 加 权 和 ， 并 将 其 压缩 至 0~1 
的 范围 内 。 如 果 神 经 元 输入 的 加 权 和 非常 小 ， 神 经 元 的 输出 就 接近 于 
0; 如 果 非 常 大 ， 神 经 元 的 输出 就 非常 接近 1 。 


使 用 S$ 型 曲线 的 好 处 是 ， 神 经 元 的 输出 值 都 “表现 恨 好 ”: 任何 神经 
元 都 不 会 输出 高 得 离谱 或 低 得 离谱 的 值 ， 而 且 输 入 和 输出 之 间 的 关系 
函数 独 形 是 平滑 的 。 当 你 训练 或 使 用 网 络 时 ， 这 些 都 是 很 好 的 特性 ， 
否则 当 你 使 用 网 络 时 ， 边 权重 可 能 会 脱 胀 到 无 穷 大 。 具 有 一 个 平滑 的 
函数 独 形 意味 着 ， 如 采 你 稍微 调整 网 络 的 输入 或 输出 ， 你 总 是 知道 应 
该 调整 多 少 网 络 权重 。 全 究 人 员 还 喜欢 指出 ， 这 个 函数 是 受 生 物 学 局 
发 的 ， 但 还 记得 吗 ， 使 用 某 种 东西 仅仅 是 因为 它 受 到 了 生物 学 司 发 ， 
这 个 理由 有 时 会 “充满 危险 ”。 


使 用 S$ 型 曲线 的 问题 是 ， 它 往往 会 “稀释 ?通过 网 络 传递 的 消 妃 。 如 
果 输 入 到 神经 元 的 加 权 和 很 大 ， 那 么 神经 元 不 关心 输入 是 大 还 是 特别 
大 ， 无 论 哪 种 情况 ， 它 都 输出 数 子 1。 在 男 一 个 极 问 也 是 如 此 : 无 论 神 


经 元 的 输入 是 负数 还 是 特别 小 的 负数 ， 神 经 元 都 输出 数字 0。 当 我 们 运 
行 网 络 时 ， 这 可 能 不 是 问题 ， 但 是 当 我 们 试图 训练 网 络 时 ， 这 就 可 能 
成 为 问题 。 我 们 通过 网 络 向 后 发 送 用 来 调整 权重 的 信息 ， 而 它 在 通过 
网 络 时 会 被 稀释 。 我 们 最 初 认 为 的 好 处 之 一 (我们 知道 在 训练 网 络 时 
需要 调整 多 少 权重 ) 其 实 并 没有 多 大 好 处 ， 因 为 当权 重 实际 上 应 该 变 
动 很 大 的 时 候 ， 训 练 算 法 可 能 认为 根本 不 需要 调整 权重 。 这 个 问题 有 
时 被 称 为 “梯度 消失 ”。 梯 度 是 神经 网 络 中 的 权重 为 了 从 训练 数据 样本 
中 学 习 而 必须 移动 的 方向 。 如 果 梯 度 消失 ( 即 当 网 络 未 完成 训练 时 ， 
梯度 几乎 为 去) ， 这 意味 着 网 络 无 法 从 它 的 训练 样 例 中 学 习 : 它 会 名 
略 训练 样 例 ， 即 使 该 样 例 是 有 用 的 。 由 于 这 个 问题 ， 研 究 人 员 只 好 继 
续 研 究 其 他 激活 画 数 。 


在 另 一 个 极端 ， 如 采 我 们 完全 不 压缩 神经 元 的 输出 ， 而 是 使 用 图 
10.1 (b) 中 的 激活 函数 ， 将 每 个 神经 元 计算 出 的 加 权 和 直接 作为 该 神 
经 元 的 输出 传递 出 去 ， 会 如 何 ? 这 样 吏 不 存在 梯度 消失 问题 了 ， 事 实 
上 上， 如果 我 们 使 用 这 个 压缩 函数 ， 更 新 网 络 权 重 束 会 非常 容易 。 但 这 
带 来 了 男 一 个 问题 ， 如 果 我 们 对 网 络 中 的 所 有 人 神经 元 使 用 这 个 压缩 函 
数 ， 那 么 整个 网 络 将 在 数学 上 南 缩 成 单 层 网 络 的 等 价 物 ， 我 们 认为 的 
从 深度 网 络 中 获得 的 所 有 好 处 都 会 消失 。 假 设 我 们 想 要 从 多 层 网 络 中 
team (我们 确实 这 样 希望 )， 这 同样 行 不 通 。 


1. 这 通常 被 称 为 S 型 函数 (sigmoid function) ， 公 式 为 exp(x)/(1l+exp(x))。 


2. Alex Krizhevsky,Ilya Sutskever,and Geoffrey E.Hinton,“ImageNet Classification with 
Deep Convolutional Neural Networks,”Proceedings of the25th International Conference on 
Neural Information Processing Systems,Lake Tahoe,NV,December3-6,2012,1097—1105. 40 È 
想 要 使 用 S 型 激活 函数 ， 那 么 我 们 仍然 有 方法 可 以 训练 深度 神经 网 络 。 一 种 常见 的 方法 

是 使 用 无 监督 预 训练 。 这 种 方法 的 思想 在 概念 上 类 似 于 网 飞 奖 中 使 用 的 矩阵 分 解 方 法 ， 

因为 它 找到 了 一 种 低 维 表示 , “解释 * 了 神经 元 激活 的 许多 变化 。 


ReLU 激 活 画 数 


大 约 从 2010 年 开始 ， 我 们 就 已 经 看 到 了 更 好 的 结果 ， 出 现 了 一 个 
介 于 这 两 个 极端 之 间 的 激活 函数 ， 如 图 10.1 (c) 所 示 。 这 个 激活 画 数 
被 称 为 线性 整流 函数 ， 简 称 “ReLU”， 最 初 由 AlexNet 在 2012 年 使 用 ， 
此 后 用 于 各 种 其 他 网 络 。 人 党) 如 果 神 经 元 的 输入 总 和 小 于 0， 则 输出 等 
于 0， 如 果 输 入 的 总 和 大 于 0， 则 输出 等 于 输入 的 总 和 。 有 一 段 时 间 ， 
研究 人 员 担 心 这 会 产生 与 $ 型 曲线 相同 的 问题 ， 即 网 络 会 稀释 通过 许多 


层 传 递 的 信息 。 但 这 种 情况 在 实践 中 似乎 并 没有 发 生 。 
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图 10.1 神经 网 络 的 激活 函数 。 (a) S 型 曲线 〈 正 式 名 称 为 $ 型 画 数 ) 被 使 用 了 很 长 时 间 ， 但 
) 


C 
ReLU 激 活 函 数 已 经 变 得 很 流行 了 ， 因 为 它 使 深度 神经 网 络 的 训练 变 得 更 容易 


相反 ，ReLU 激 活 函 数 似 乎 有 一 些 非 党 好 的 特性 。 对 于 任意 固定 的 
输入 ， 网 络 神经 元 的 某 些 部 分 会 是 暗 的 ， 而 其 他 部 分 会 被 点 亮 。 如 果 
你 在 任意 方向 上 稍微 改变 输入 ， 原 本 “开局 ?或 “关闭 ?的 神经 元 集合 通 
常 不 会 改变 。 当 你 改变 一 小 部 分 输入 时 , “开局 ”的 神经 元 的 亮度 会 发 
生变 化 ， 但 “开局 ”的 神经 元 仍 会 保持 < 开局”, “关闭 ?的 神经 元 仍 会 保 
持 “ 天 闭 *”。 但 更 重要 的 是 ， 网 络 在 这 个 输入 附近 的 小 范围 内 表现 得 像 
单 层 网 络 ， 也 整 古 说 ， 像 一 堆 加 权 平 均 分 类 器 。 


当 你 继续 改变 网 络 的 输入 ， 让 它 更 加 远离 最 初 的 输入 时 ，“ 开 
启 ” 的 神经 元 集合 就 会 开始 发 生变 化 。 当 你 平滑 地 改变 输入 时 ， 输 出 仍 
然 会 平滑 地 变化 ， 也 就 是 说 ， 只 要 你 不 突然 改变 输入 ， 输 出 就 永远 不 
会 出 现 突变 。( 电 但 是 ， 输 入 和 输出 之 间 的 关系 会 改变 。 你 可 以 将 整个 
网 络 看 作 将 单 层 网 络 拼 凌 在 一 起 而 形成 的 ， 它 们 之 所 以 被 拼 凌 在 一 
起 ， 是 为 了 符合 训练 数据 。 哪 个 单 层 网 络 处 理 输入 ， 取 决 于 哪些 神经 
元 被 该 输入 “开启 ”或 “关闭 *。 事 实 上 ， 整 个 网 络 中 编码 的 单 层 网 络 的 
数量 可 能 是 指数 级 的 。( 馈 


当 我 说 这 是 一 个 指数 级 数量 的 网 络 时 ， 我 不 是 随意 说 的 。 我 指 的 
征 数 学 意义 上 的 指数 。 隐 藏 在 整个 网 络 中 的 可 能 的 单 层 网 络 数量 ， 是 
通过 网 络 中 的 神经 元 “开局 ?或 “关闭 ”的 所 有 可 能 方式 来 措 述 的 。 对 于 
一 个 只 有 60 个 神经 元 的 ReLU 网 络 ， 它 的 神经 元 的 “ 开 / 关 ”状态 组 合 的 
数量 ( 即 我 们 可 以 隐藏 在 其 中 的 单 层 网 络 的 数量 ) ， 大 约 是 世界 上 所 
有 海滩 和 沙漠 上 的 沙 粒 的 数量 。( 回 一 个 有 270 个 神经 元 的 网 络 可 能 拥 
有 与 已 知 宇宙 中 的 原子 数目 一 样 多 的 组 合 。 亿 还 记得 吗 ， 现 代 神经 网 
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数 来 表示 它 的 输入 ， 那 么 它 可 以 做 到 ; 如 末 网 络 需 要 使 用 一 个 更 复 灯 
的 画 数 《就 像 拼 接 单 层 网 络 那样 ) ， 那 么 就 要 考虑 其 他 方法 了 。 人 四 


既然 ReLU 的 函数 图 形 大 部 分 也 是 平滑 的 ， 那 么 为 什么 ReLU 没 有 
出 现 和 S$ 型 曲线 一 样 的 问题 ? 假设 你 有 一 个 希望 网 络 学 习 的 训练 样 例 。 
虽然 对 于 一 个 典型 输入 ， 许 多 神经 元 会 关闭， 但 是 只 要 从 网 络 的 输入 
到 输出 至 少 存在 点 腕 的 神经 元 的 路 径 ， 那 么 网 络 束 可 以 调整 这 条 路 径 
上 的 权重 ， 以 此 学 习 训 练 样 例 。 当 来 目 这 个 样 例 的 信息 通过 这 些 点 腕 
的 神经 元 传播 时 ， 这 条 路 径 上 的 权重 会 为 了 训练 样 例 把 功劳 或 责任 斤 
到 自己 身上 。 导 随后 ， 当 网 络 看 到 一 个 与 训练 时 看 到 的 样 例 类 似 的 输 
入 时 ， 它 就 会 点 亮 一 些 或 所 有 在 训练 中 看 到 类 似 样 例 时 点 亮 的 神经 
元 ， 以 此 “想起 ”那些 训练 样 例 。 


ReLU 的 这 种 优点 类 似 于 另 一 种 训练 深度 神经 网 络 的 流行 技巧 ， 即 
在 训练 过 程 中 暂时 “抑制 ?神经 元 。 每 当 使 用 一 个 训练 样 例 来 训练 网 络 
时 ， 随 机 的 一 部 分 神经 元 (比如 50% 的 神经 元 ) 会 被 暂时 抑制 ， 方 法 
是 将 它们 的 输出 暂时 设置 为 0。( 司 然后 使 用 这 个 训练 样 例 更 新 剩余 的 
神经 元 的 权重 ， 仿 佛 被 抑制 的 神经 元 根本 不 存在 一 样 。 与 ReLU 一 样 ， 
被 抑制 的 神经 元 的 组 合 数量 是 指数 级 的 ， 因 此 ， 实 际 上 有 无 限 多 的 网 
络 需 要 训练 。 


当 使 用 训练 出 的 网 络 进行 预测 时 ， 每 个 神经 元 的 输出 都 被 缩小 
了 ， 这 样 每 个 神经 元 的 输入 变 成 了 许多 独立 训练 模型 的 平均 值 。 整 个 
网 络 实际 上 变 成 了 由 大 量 经 过 训练 的 网 络 组 成 的 庞大 混合 体 ， 这 让 人 
想起 了 在 网 飞 奖 上 取得 成 功 的 模型 平均 技术 。( 赎 


这 些 训练 神经 网 络 的 技巧 ， 包 括 使 用 ReLU 激 活 函 数 、 在 训练 期 间 
随机 抑制 神经 元 ， 以 及 拥有 大 量 数据 、 用 深度 代替 宽度 、 使 用 卷 积 


层 。 把 它们 结合 起 来 使 用 ， 是 创建 能 够 像 人 类 一 样 或 更 好 地 对 图 片 进 
行 分 类 的 网 络 的 部 分 主要 因素 。 


从 技术 上 讲 ， 神 经 网 络 在 识别 图 像 中 的 物体 方面 比 人 类 做 得 更 
好 ， 我 们 对 这 个 事实 需要 标 一 个 大 大 的 星 号 。 至 少 有 一 个 网 络 确实 超 
过 了 人 类 辨识 细 粒 度 类 别 的 能 力 ， 但 网 络 的 优势 在 于 ， 写 是 针对 狭 罕 
的 、 特 定 类 别 的 物体 进行 训练 的 ， 例 如 训练 数据 中 的 120 个 犬 种 。 在 许 
多 情况 下 ， 网 络 可 以 正确 识别 狭窄 类 型 的 物品 ， 如 神 怒 鸦 鹏 、 匈 牙 利 
牧 皇 犬 、 呈 后 构 兰 ， 而 人 类 一 般 只 能 根据 它们 的 大 类 来 识别 ， 例 如 布 
合 乌 、 牧 羊 犬 和 兰 伦 ， 甚 至 可 能 只 识别 出 乌 、 狗 和 人 花 。 与 计算 机 相 
比 ， 人 类 有 机 会 研究 这 些 类 别 ，ImageNet 挑 战 赛 背后 的 研究 人 员 发 
现 ， E e ANNO, (ASSEN: 人 类 有 征 不 完美 
的 。 


神经 网 络 也 有 目 身 的 弱点 。 打 败 人 类 的 算法 仍然 会 在 识别 图 片 中 
的 物体 时 出 错 ， 而 人 类 在 识别 这 些 物体 时 不 会 有 任何 困难 。 人 所 我 们 其 
至 可 以 为 神经 网 络 制造 视 错觉 来 “其 统 ?它们 ， 让 它们 确信 目 己 看 到 了 
实际 上 并 不 存在 的 物体 ， 而 对 人 类 而 言 ， 视 错觉 吏 像 是 抽象 乞 术 。 在 
一 个 案例 中 ， 有 5 列 红色 颖 线 的 日 色 背 景 可 以 诱 使 神经 网 络 认为 它 看 到 
了 棱 球 ， 再 如 ， 黑 色 、 灰 色 和 橙色 的 涟 注 状 图 案 会 让 神经 网 络 确信 它 
看 到 了 沉 企鹅 ， 久 如， 一 组 精心 放置 的 矩形 网 格 会 让 神经 网 络 确 信 它 
看 到 了 遥控 硕 。 同 样 ， 我 们 也 可 以 制造 一 种 视 错觉 ， 在 人 类 看 来 它 像 
某 个 物体 ， 而 在 神经 网 络 看 来 它 就 像 完全 不 同 的 物体 。( 电 这 种 现象 的 
原因 在 于 神经 网 络 解释 图 片 的 独特 方式 。 
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训练 的 照片 那样 ， 然 后 我 们 通过 卷 积 神经 网 络 传递 这 张 照片 。 只 要 我 
们 知道 网 络 的 权重 ， 网 络 就 会 按照 预期 逐 层 激活 。 在 每 一 层 中 ， 当 和 神 
经 元 对 图 片 中 的 不 同 模式 做 出 反应 时 ， 有 些 神经 元 会 保持 黑暗 ， 而 有 
些 则 会 亮 起 来 。 由 于 我 们 把 宠物 狗 的 照片 传 到 了 神经 网 络 中 ， 那 么 当 
我 们 观察 网 络 的 深层 次 〈 比 如 ， 第 4 层 或 第 5 层 ) 时 ， 神 经 元 就 会 表现 
出 我 们 或 许可 以 辨识 的 物体 部 分 。 那 些 对 毛皮 和 部 分 狗 脸 做 出 反应 的 
神经 元 会 明亮 地 发 区。 如 有 果 我 们 看 最 后 一 层 ,“ 狗 神经 元 ”将 会 发 认 ， 
而 剩 下 的 大 部 分 神经 元 都 是 上 暗 的 。 


这 便 是 有 趣 之 处 。 在 上 一 章 中 ， 当 我 们 第 一 次 训练 网 络 时 ， 我 忽 
略 了 一 些 关 于 如 何 为 每 个 训练 样 例 调整 网 络 权重 的 细节 。 请 记 住 ， 训 
练 网 络 的 算法 会 根据 网 络 未 端的“ 狗 神 经 元 ?的 “不 正确 程度 "来 调整 权 
重 。 它 使 用 了 一 个 数学 函数 来 衡量 网 络 输出 与 训练 样本 标签 的 接近 程 
度 。 这 个 标签 只 征 1 或 0， 用 来 描述 图 片 中 是 否 有 铬 。 然 后 ， 训 练 网 络 
的 算法 会 利用 初级 的 微 积分 知识 计算 出 应 该 朝 哪个 方向 调整 网 络 的 权 
重 ， 以 便 网 络 下 一 次 可 以 更 准确 地 预测 输出 值 。 


如 果 不 古 调整 网 络 的 权重 使 其 更 符合 图 片 ， 而 钙 调 整 图 片 使 其 更 
fram. mua? 换言之 ， 我 们 对 网 络 进行 了 训练 ， 如 果 保 持 网 络 
的 权重 不 变 ， 调 整 输入 图 片 ， 比 如 一 张云泉 的 照片 ， 使 “ 狗 神 经 元 ”更 
明亮 ， 而 其 他 神经 元 保持 黑暗 ， 会 如 何 ? 


如 果 这 样 调整 图 片 ， 每 次 调整 少许 像素 ， 然 后 重复 ， 那 么 我 们 实 


际 上 会 逐渐 在 照片 中 看 到 狗 ， 即 便 一 开始 根本 没有 狗 ! OSE, E 
一 章 中 的 一 些 图 片 就 是 这 样 生成 的 ， 一 组 深度 学 习 的 研究 人 员 采 用 了 


一 个 类 似 AlexNet 的 网 络 ， 调 整 输入 图 像 ， 使 某 些 神经 元 〈 例 如 代表 大 
白 鳌 或 沙漏 的 神经 元 ) 变 得 明亮 ， 而 其 他 神经 元 仍 保持 黑暗 。( 思 谷歌 
的 研究 人 员 使 用 了 类 似 的 方法 来 分 析 他 们 的 神经 网 络 。 当 写 到 如 何 做 
到 这 一 点 时 ， 他 们 举 了 几 个 例子 。 在 其 中 一 个 例子 中 ， 他 们 观察 了 一 
个 可 以 识别 哑铃 (你 可 以 在 健身 房 看 到 这 种 东西 ) 的 神经 元 生成 的 图 
片 。 他 们 发 现 图 片 中 确实 有 哑铃 ， 但 也 有 握 着 哑铃 的 肌肉 发 达 的 手 
臂 。 显 然 ， 他 们 观察 到 ， 网 络 识别 哑铃 的 重要 的 区 别 性 特征 不 仅仅 是 
哑铃 本 身 ， 还 包括 哑铃 的 使 用 环境 © (©) 


合 歌 用 类 似 的 方式 创建 了 目 己 的 “ 深 梦 ”图 片 ， 只 是 他 们 没有 强迫 
网 络 生成 狗 或 其 他 特定 物体 的 图 片 ， 而 是 让 网 络 创造 更 多 它 在 图 片 中 


我 们 同样 可 以 让 网 络 做 出 决定 ， 而 不 征 精 确 地 规定 我 们 希望 网 络 
放大 哪些 特征 。 在 这 种 情况 下 ， 我 们 只 需 同 网 络 提 供 任意 图 像 或 照 
片 ， 并 让 它 分 析 图 片 。 然 后 ， 我 们 选择 一 个 屋 ， 并 要 求 网 络 增强 它 检 
测 到 的 内 容 。 网 络 的 每 一 层 都 在 不 同 的 抽象 层次 上 处 理 特征 ， 因 此 我 
们 生成 的 特征 的 复杂 度 取 决 于 我 们 选择 增强 哪 一 层 。 例 如 ， 较 低 的 层 
倾 呵 于 产生 笔画 或 侧 单 的 痰 饰 状 图 案 ， 因 为 这 些 层 对 诸如 边 毕 及 其 方 
癌 这 样 的 基本 特征 很 敏感 。 


如 果 我 们 选择 可 以 识别 图 片 中 更 复杂 特征 的 更 高 级 别 的 层 ， 就 会 
出 现 复 杂 的 特征 甚至 整个 物体 。 又 一 次 ， 我 们 从 现 有 的 图 片 开 始 ， 把 
它 交 给 我 们 的 神经 网 络 。 我 们 告诉 网 络 :“ 无 论 你 在 图 片 里 看 到 什么 ， 
我 都 想 要 更 多 ! "这 就 形成 了 一 个 反馈 循环 ， 如 果 云 杂 看 起 来 有 点 像 
鸟 ， 那 么 网 络 就 会 让 它 看 起 来 更 像 岛 。 这 反 过 来 又 会 使 网 络 在 下 一 次 
图 片 通过 时 更 加 强烈 地 识别 出 鸟 ， 以 此 类 推 ， 直 到 有 一 只 非常 细致 的 
岛 仿佛 从 天 而 降 一 样 出 现 。 仁 


Imgur.com 网 站 上 的 神秘 图 片 束 是 这 样 被 创造 出 来 的 。 在 图 10.2 
(b) 中 ， 你 可 以 看 到 “ 深 梦 * 生 成 的 图 片 ， 这 是 把 一 张 小 猫 的 照片 喂 给 
类 似 的 算法 所 产生 的 结果 。 


谷歌 的 博客 文章 发 表 后 不 入 ， 其 他 研究 人 员 开 始 使 用 类 似 的 想法 
重新 构想 艺术 风格 。 他 们 创造 了 一 些 工 具 ， 使 任何 人 都 可 以 把 艺术 家 
的 绘画 风格 迁移 到 完全 不 同 的 图 片上 。 如 采 你 想 让 你 家 人 的 照片 看 起 
来 像 文 森 符 : 栖 高 男 的 一 样 ， 你 只 需要 让 你 的 照片 通过 其 中 一 个 程序 。 


TEUER +, VBA CSA) 通过 网 络 传递 ， 让 神经 元 
像 往常 一 样 亮 起 来 。 发 光 的 神经 元 包括 前 几 层 的 一 些 低级 “ 边 绿 探测 
右 ” 以 及 较 深 层次 的 高 级 “物体 探测 器 ”。 然 后， 风格 转换 算法 检测 每 个 
层 中 的 过 滤 紫 如 何在 整 张 图 片 中 相互 关联 。 这 种 关联 正 是 这 些 算法 害 
义 己 术 家 风格 的 方式 。 如 果菜 些 过 滤 紫 倾 同 于 在 图 片 的 不 同 部 分 让 神 
经 元 彼此 一 致 亮 起， 根据 推理 ， 这 束 表 明志 术 家 的 风格 中 有 一 些 重 要 
的 特点 。 如 有 果 艺 术 家 倾 同 于 只 使 用 几 种 简单 的 颜色 和 许多 小 点 ， 那 么 
解释 这 些小 点 的 神经 元 往往 会 彼此 一 致 亮 起。 如果 亏 术 家 倾 问 于 使 用 
锐利 的 笔触 ， 那 么 捕捉 到 这 些 锐利 笔触 的 神经 元 无 论 在 什么 位 置 都 会 
— BGI ° 


然后 ,，“ 内 容 * 图 像 〈 比 如 你 的 全 家 福 照 片 ) 将 通过 同一 网 络 的 另 
一 个 副本 传递 ， 我 们 选择 网 络 的 一 个 特定 层 来 捕捉 图 像 内 容 的 精华 。 
一 旦 我 们 选择 了 这 一 层 ， 算 法 就 会 调整 全 家 福 照片 ， 使 每 一 层 中 的 神 
经 元 按照 与 风格 图 像 相同 的 方式 相互 关联 ， 但 算法 不 允许 我 们 所 选择 
的 层 中 的 神经 元 偏离 它们 的 原始 值 太 远 。 只 要 我 们 的 假设 是 正确 的 ， 
即 每 一 层 的 过 滤器 表达 的 相关 性 可 以 捕捉 一 个 艺术 家 的 风格 ， 那 么 这 
就 会 使 新 图 片 呈现 出 第 一 张 图 片 的 风格 。 在 实践 中 ， 这 似乎 是 一 个 合 
理 的 假设 ， 因 为 算法 的 结果 与 我 们 的 直觉 相符 当 算法 运行 完毕 时 ， 
你 的 全 家 福 照 片 将 被 “重新 想象 "成 柬 高 的 画作 ， 或 者 是 你 用 于 风格 图 
像 的 任何 其 他 绘画 风格 ! (里 在 图 10.2 (c) 和 10.2 (d) 中 ， 我 对 这 三 


只 小 猫 的 照片 使 用 了 相同 的 方法 。 正 如 你 所 看 到 的 ， 由 此 产生 的 图 片 
捕捉 到 了 我 们 在 不 同 艺术 风格 中 所 期 待 的 直观 感觉 ， 其 中 一 幅 图 具有 
强烈 的 笔触 效果 ， 会 让 我 们 联想 到 梵 高 的 一 些 最 著名 的 作品 ， 比 如 他 
的 自画像 ， 而 另 一 幅 图 的 风格 让 人 联想 到 卡通 形象 ， 这 种 风格 被 称 
为 "辛普森 风格 "。 


(a) 


图 10.2 (a) 一 张 寄养 小 猫 的 照片 。 (b) 带 着 对 照片 的 重新 诠释 ， 基 于 “ 深 梦 ”算法 多 次 迭代 
后 ， 网 络 所 看 到 的 图 片 。 (0 (d) 使 用 了 风格 转换 算法 的 图 片 。 (co) 使 用 了 文 森 特 ` 梵 高 的 


绘画 风格 ， (d) 使 用 了 《辛普森 一 家 》 的 创作 风格 。 除 (a) 外 ， 所 有 图 片 都 是 通过 
的 


https://deepdreamgenerator.com AH 


当 这 个 算法 “重新 想象 "你 的 全 家 福 照 片 时 ， 请 记 住 此 时 没有 真正 
的 “想象 发生。 网 络 只 是 处 理 风格 图 像 和 内 容 图 像 ， 其 神经 元 分 别 以 
可 预测 的 方式 对 二 者 发 光 ， 然 后 算法 调整 内 容 图 像 以 优化 一 个 明确 定 
义 的 数学 函数 ， 使 网 络 中 激活 的 神经 元 按照 与 风格 图 像 一 致 的 方式 相 
互 关 联 。 对 一 个 计算 机 程序 而 言 ， 最 终 的 结果 可 能 看 起 来 很 壮观 ， 但 
这 主要 是 因 为 这 些 网 络 使 用 抽象 来 执行 它们 的 操作 ， 而 这 种 抽象 比 我 
们 通常 对 计算 机 程序 的 抽象 期 望 层次 要 高 。 直 到 最 近 ， 我 们 才 开 始 期 
望 计算 机 能 够 在 非常 原始 的 水 平 上 对 图 像 进行 操作 ， 因 为 这 是 它们 所 
能 做 的 一 切 。 你 的 家 庭 照片 编辑 软件 里 束 有 工具 ， 可 以 让 你 调整 照片 
的 色彩 平衡 或 对 照片 进行 柔 化 。 但 现在 ， 这 些 操作 都 可 以 用 卷 积 神经 
网 络 的 最 低级 别 来 实现 。 但 是 ， 我 在 本 章 中 描述 的 算法 在 更 抽象 的 层 
次 上 对 图 像 进行 操作 ， 通 过 使 用 网 络 深 处 的 几 层 神 经 元 来 解释 和 调整 
图 像 。 这 是 这 些 网 络 的 主要 优势 ， 也 是 它们 可 以 被 应 用 于 许多 独特 
的 、 非 直观 的 应 用 的 原因 之 一 。 


在 过 去 的 几 章 中 ， 我 们 已 经 对 深度 神经 网 络 如 何 使 计算 机 以 非 
常 * 人 性 化 ”的 方式 解释 和 处 理 图 像 有 了 一 些 直 观 的 认识 。 但 到 目前 为 
止 ， 我 们 的 重点 一 直 集 中 在 使 用 深度 神经 网 络 来 解释 视 沉 信息 上 。 是 
否 有 可 能 使 用 深度 神经 网 络 来 更 好 地 解释 和 处 理 其 他 类 型 的 媒体 ， 如 
音频 和 书面 文本 ? 你 将 在 下 一 章 看 到 ， 答 案 是 肯定 的 。 深 度 神 经 网 络 
在 这 些 领 域 效 果 不 错 ， 部 分 原因 是 我 们 在 这 些 领域 同样 拥有 大 量 的 数 
据 。 但 是 你 很 快 束 会 看 到 ， 我 们 需要 开发 一 些 新 的 神经 网 络 工具 来 处 
理 这 些 不 同类 型 的 数据 ， 新 工具 类 似 于 卷 积 过 滤器 ， 但 是 可 以 被 用 于 
时 间 序 列 数据 。 


1. 如 果 我 们 不 小 心 ， 图 片 最 终 可 能 看 起 来 不 自然 ， 因 为 像素 可 能 会 使 用 极端 的 颜色 , 
而 相 邻 像素 可 能 会 使 用 过 渡 不 自然 的 不 同 颜色 。 研 究 人 员 发 现 ， 他 们 可 以 通过 奖励 附近 


的 像素 使 用 相似 的 颜色 ， 以 及 通过 奖励 像素 为 灰色 ， 而 不 是 极 亮 或 极 暗 的 颜色 ， 来 做 到 
这 一 点 。Nguyen et al.,“Deep Neural Networks Are Easily Fooled.” 


2. Jason Yosinski et al., "Understanding Neural Networks through Deep Visualization,” Deep 


Learning Workshop,31st International Conference on Machine Learning,Lille,France,2015. 


3. Alexander Mordvintsev,Christopher Olah,and Mike Tyka,Inceptionism:Going Deeper 
into Neural Networks,June17,2015,accessed 
April9,2017,https://research.googleblog.com/2015/06/inceptionism-going-deeper- 
intoneural.html. 


4. Mordvintsev et al.,Inceptionism. 


5. Leon A.Gatys,Alexander S.Eckerand Matthias Bethge,“Image Style Transfer Using 
Convolutional Neural Networks,"The IEEE Conference on Computer Vision and Pattern 
Recognition(2016):2414—2423. 


11 能 听 、 能 说 、 能 记忆 的 神经 网 络 


对 机 器 而 言 , “理解 "意味 着 什么 ? 


在 过 去 的 几 间 中 ， 我 们 大 部 分 时 间 都 在 研究 深度 神经 网 络 如 何 识 
别 图 像 中 的 物体 。 我 之 所 以 关注 这 些 网 络 ， 很 大 程度 上 是 因为 本 书 中 
的 许多 机 器 者 使 用 某 种 形式 的 视觉 来 感知 周围 的 世界 。 但 是 ， 如 果 我 
们 和 希望 机 器 有 其 他 方式 与 世界 互动 ， 比 如 生成 英语 句子 ， 或 者 理解 人 
类 的 语言 ， 该 怎么 办 ? 卷 积 神经 网 络 在 这 方面 还 会 有 用 吗 ? 还 有 其 他 
神经 网 络 的 “基本 元 素 ”* 会 有 帮助 吗 ? 更 进一步 讲 ， 使 用 神经 网 络 来 完 
成 理解 语言 这 样 的 任务 有 意义 吗 ? 


问题 的 答案 都 是 肯定 的 。 在 本 章 中 ， 我 们 将 简要 介绍 如 何 做 这 些 
事情 。 然 而 ， 在 我 们 讨论 这 些 细 市 之 前 ， 让 我 先 明 确 一 下 我 所 说 的 能 
够 “理解 "人 类 语言 的 计算 机 程序 是 什么 意思 。 我 们 距离 拥有 能 像 人 类 
那样 理解 人 类 语言 的 机 器 还 有 很 长 的 路 要 走 。 然 而 ， 我 们 已 经 知道 如 
何 创建 可 以 把 一 个 人 的 讲话 杂 首 转换 成 书面 文字 的 计算 机 程序 ， 这 项 
任务 通常 被 称 为 语音 识别 。 这 些 算法 处 理 孙 音 的 方式 与 AlexNet 处 理 银 
片 的 方式 是 一 样 的 : 它们 对 孙 音 进行 分 类 ， 用 人 类 可 解释 的 标签 
单词 ， 来 标记 。 正 如 检测 图 片 中 物体 的 算法 可 以 与 人 类 的 准确 性 相 妮 
美 一 样 ， 我 们 的 语音 识别 算法 现在 也 能 与 人 类 识别 语音 的 能 力 相 妮 
美 。 


深度 语音 识别 系统 


请 想象 ， 假 设 你 被 分 配 了 一 个 任务 ， 任 务 要 求 你 设计 一 个 可 以 转 
孙 人 类 语言 的 神经 网 络 。 你 会 从 何 下 手 ? 网 络 的 输入 会 是 什么 样子 ， 
它 的 输出 是 什么 ? 你 会 使 用 多 少 层 ， 如 何 将 这 些 层 连接 起 来 ? 要 回答 
这 些 问 题 ， 我 们 可 以 看 看 网 络 搜索 巨头 百度 构建 的 语音 识别 系统 。 百 
度 的 网 络 转 孙 语音 的 能 力 可 以 旭 美 人 类 ， 它 之 所 以 能 做 到 这 一 点 ， 与 
谷歌 的 网 络 在 图 乒 分 类 方面 能 如 美 人 类 的 原因 一 样 : 从 大 量 数据 开 
始 。 百 度 用 了 11940 个 小 时 ， 即 超过 一 整 年 时 间 的 英语 口语 来 训练 他 们 
最 好 的 语音 网 络 之 一 。 束 像 AlexNet 的 创建 考 通 过 变换 ImageNet 中 的 
片 来 增加 训练 数据 一 样 ， 百 度 也 通过 变换 样本 来 扩充 语音 数据 集 : 他 
们 拉 长 录 首 ， 改 变 录 首 的 频率 ， 增 加 噪声 ， 这 样 他 们 拥有 的 数据 量 就 
比 开始 时 增加 了 许多 倍 。 无论 哪 种 情况 ， 他 们 都 没有 改变 语音 的 内 
容 ， 他 们 只 是 改变 了 说 话 的 方式 。 但 是 ， 拥 有 大 量 的 训练 数据 本 号 并 
不 足以 建立 一 个 能 够 准确 转录 语 首 的 网 络 ， 他 们 还 需要 选择 正确 的 网 
LRA] © 


我 们 想 要 的 神经 网 络 可 以 把 录 首 作为 输入 ， 然 后 生成 字母 序列 

( 即 录音 的 书面 转录 ) 作为 输出 。 对 于 语音 网 络 的 输入 ， 我 们 可 以 使 
用 有 录 首 的 声 谱 图 。 声 谱 图 通过 揪 述 录 首 中 的 不 同 频 率 随 时 间 变 化 的 强 
度 来 总结 录 首 。 你 可 以 把 声 谱 图 视 为 黑 日 图 像 :x 轴 表 示 时 间 ，y 轴 表 
示 频 率 ， 每 个 像素 的 举 暗 程度 代表 录音 中 某 一 时 刻 某 一 频率 处 的 声音 
强度 。 噩 频 首 调 的 声 谱 图 由 横 跨 声 谱 图 顶部 的 一 条 上 暗 线 组 成 ， 而 低频 
首 调 的 声 谱 图 则 由 横 跨 声 谱 图 的 部 的 一 条 上 暗 线 组 成 。 几 个 声音 脉冲 会 
在 图 像 中 显示 为 从 左 到 右 军 过 日 色 育 景 的 灰 度 斑点 。 正 如 你 可 以 将 孙 
首 园 换 成 声 说 图 一 样 ， 用 声 谱 图 也 可 以 重建 原始 好 首 。 声 谱 图 可 以 对 


录音 进行 编码 ， 这 意味 着 我 们 可 以 单独 将 声 谱 图 作为 输入 传递 给 神经 
网 络 。 


既然 我 们 知道 如 首 可 以 转换 成 图 像 ， 我 们 可 能 会 问 目 己 ， 网 络 是 
人 否 应 该 有 一 些 着 积 层 ? 答案 是 肯定 的 ， 这 就 是 百度 的 网 络 所 使 用 的 : 
百度 网 络 的 前 几 层 确实 是 卷 积 层 。 但 我 们 需要 的 不 仅仅 是 卷 积 层 。 我 
们 需要 一 种 明确 的 方法 让 神经 网 络 处 理 时 间 。 


1. Dario Amodei et al.,“Deep Speech2:End-to-End Speech Recognition in English and 
Mandarin,” arXiv preprint arXiv:1512.02595,2015. 


循环 神经 网 络 


与 时 间 序 列 数据 (或 任何 顺序 数据 ， 相互 作用 的 最 常见 的 神经 网 
络 类 型 是 循环 神经 网 络 (recurrent neural network ， 下 文 简称 为 
RNN) 。RNN 是 由 相同 的 神经 元 单元 组 成 的 神经 网 络 ， 它 们 在 一 个 系 
列 中 相互 馈送 ， 如 图 11.1 所 示 。 这 些 单元 共享 相同 的 权重 ， 束 像 卷 积 
过 滤器 共享 相同 的 权重 一 样 。 唯 一 的 区 别 在 于 ， 共 享 相 同 权重 的 卷 积 
过 滤器 通常 不 会 相互 馈送 。 男 一 方面 ，RNN 的 本 质 是 ， 每 个 RNN 单 元 
将 其 输出 直接 馈送 到 下 一 个 RNN 音 元， 根据 定义 ， 下 一 个 RNN 单 元 的 
权重 与 上 一 个 单元 相同 。 并 日 每 个 RNN 单 元 接受 其 输入 并 以 各 种 方式 
对 其 进行 变换 ， 然 后 再 输出 结果 。 这 就 是 RNN 的 神奇 之 处 ， 它们 操作 
数据 和 相互 传递 数据 的 方式 使 它们 能 够 记录 状态 。 


输出 层 


输入 层 


图 11.1 RNN 单 元 在 时 间 上 展开 。 每 个 单元 都 有 一 个 状态 变量 h， 它 逐个 单元 地 转变 。 转 变 由 输 
入 x 和 前 一 个 单元 的 状态 决定 。 每 个 单元 还 生成 一 个 输出 y， 用 于 与 网 络 的 其 余部 分 共享 关于 
状态 的 信息 


我 们 简要 回顾 一 下 ， 是 什么 让 自动 驾驶 汽车 能 够 表现 出 复杂 的 行 
AJ? 它们 理解 环境 的 能 力 ， 即 它们 的 感知 能 力 ， 无 疑 是 至 关 重 要 的 。 
但 是 像 Boss 这 样 在 城市 环境 中 行驶 的 汽车 在 遇 到 复 洒 情况 时 需要 一 些 
方法 来 做 出 明智 的 决策 。 在 Boss 的 推理 层 中 间 是 一 个 有 限 状 态 机 ( 即 
ENA Sia) ， 用 来 跟踪 执行 任务 的 进度 。 随 着 Boss 在 其 任务 上 
取得 进展 ， 它 在 大 富 侈 棋盘 上 移动 一 枚 虚拟 的 棋子 来 跟踪 它 的 状态 : 
它 现 在 在 哪里 ， 下 一 步 可 以 去 哪里 ， 以 及 应 该 如 何 决定 下 一 步 该 去 哪 
Ho 
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同 。 每 个 循环 单元 都 会 查看 它 的 当前 状态 ， 对 这 个 状态 做 〈 或 不 做 ) 
一 些 处 理 ， 有 了 时 还 要 根据 它 在 环境 中 的 感知 改变 状态 。 你 可 以 把 RNN 
的 角色 想象 成 在 大 襄 侈 棋盘 上 移动 棋 了 于 的 人 。 


当然 ， 这 与 Boss 的 大 富 例 棋盘 有 一 些 区 别 。 喀 无 疑问 ，Boss 的 有 
限 状 态 机 具有 有 限 数量 的 状态 。RNN 的 状态 通常 用 浮 点 数 向 量 进行 编 
码 ， 因 此 RNN 中 状态 的 概念 更 加 灵活 : 它 古 高 维 空间 中 的 一 个 点 ， 它 
在 这 个 空间 中 的 位 置 定义 了 状态 的 语义 。 另 一 个 区 别 在 于 ， 像 Boss 这 
样 的 目 动 驾 驶 汽车 中 的 有 限 状态 机 是 人 工 制作 的 ， 有 一 些 人 简单 的 规 
则 ，Boss 将 遵循 这 些 规 则 从 一 个 状态 转变 到 男 一 个 状态 。 


另 一 方面 ，RNN 中 的 状态 和 转变 基于 编码 到 其 神经 元 权重 中 的 规 
则 ， 而 这 些 权重 是 从 数据 中 学 习 到 的 。 也 就 是 说 ， 每 个 RNN 单 元 仍然 
非常 简单 :， 它 只 需要 跟踪 和 更 新 状态 整 可 以 了 。 它 只 是 一 个 状态 更 新 
如 。 为 了 让 网 络 能 够 对 状态 做 一 些 有 趣 的 事情 ，RNN 单 元 通常 会 将 天 
于 状态 的 消 妃 输出 到 网 络 的 其 他 部 分 。 对 于 我 们 的 语音 网 络 ， 这 些 单 
元 将 各 目的 消息 输出 到 更 深层 的 网 络 中 。 正 如 你 想象 的 那样 ， 有 了 足 
够 的 数据 ， 语 首 网 络 中 的 一 系列 循环 单元 就 会 学 习 那 些 有 助 于 总 结 人 
类 语 首 好 首 的 频谱 图 的 状态 。 他 们 会 了 解 到 某 些 声音 是 常见 的 ， 而 某 
些 声 音 往 往 跟 随 着 其 他 声 首 。 


既然 我 们 有 了 RNN， 便 可 以 在 语音 网 络 的 不 同位 置 使 用 它们 。 正 
如 我 们 可 以 构建 指向 时 间 向 前 的 RNN 一 样 ， 我 们 也 可 以 构建 指向 时 间 
癌 后 的 RNN， 以 便 它 们 学 习 以 不 同方 式 总 结 声 谱 图 的 状态 和 转变 。 我 
们 还 可 以 将 RNN 序 列 彼此 堆 且 在 一 起 ， 不 是 在 时 间 维度 上 首尾 连接 ， 
而 是 放 在 彼此 的 顶部 ， 以 便 它 们 在 时 间 维 度 上 对 齐 ， 如 图 11.2 所 示 。 
以 这 种 方式 堆 琶 RNN 与 拥有 多 个 卷 积 层 有 同样 的 好 处 : 随 着 我 们 逐步 
深入 ， 每 个 RNN 层 通过 发 现 上 一 层 中 最 显著 的 趋势 来 总 结 上 一 层 ， 从 
而 建立 起 越 来 越 高 的 抽象 级 别 来 推理 网 络 的 输入 。 一 旦 将 几 层 RNN 堆 
登 在 一 起 ， 并 将 它们 堆 县 在 一 些 卷 积 层 的 顶部 ， 我 们 融 可 以 在 顶部 添 


加 一 个 全 连接 层 。 


因此 ， 语 音 网 络 将 声 谱 图 作为 输入 ， 并 使 用 一 个 看 起 来 酷似 
AlexNet 的 网 络 来 处 理 它 ， 只 是 这 个 网 络 在 卷 积 层 和 全 连 毛 层 之 间 夹 着 
一 些 RNN 层 ， 这 使 网 络 能 够 模拟 不 同 声音 之 间 的 转变 。 在 这 一 点 上 ， 
我 们 只 需要 一 种 方法 来 预测 网 络 输出 层 的 转录 。 


网 络 的 输出 层 是 神经 元 网 格 ， 网 格 的 一 个 方 同 表示 时 间 ， 男 一 个 
方向 表示 英文 “Alphabet” 中 的 字母 (以 及 字母 之 间 的 空格 ) 。 运 行 时 ， 
网 络 会 预测 每 个 字母 在 转录 过 程 中 的 任意 给 定时 刻 出 现 的 可 能 性 。 这 
个 预测 被 编码 在 输出 值 中 ， 如 果 字 和 母 (在 给 定时 刻 ) 更 有 可 能 出 现 ， 
输出 值 束 更 蜗 ， 反 之 输出 值 束 更 低 。 但 是 这 给 从 孙 音 序列 中 预测 转 和 
市 来 了 一 个 挑战 : 我们 需要 把 输出 层 中 的 神经 元 与 实际 的 转录 对 齐 。 
如 果 我 们 做 最 简单 的 事情 ， 在 任意 给 定时 刻 提取 最 可 能 出 现 的 字母 ， 
那么 我 们 最 终 会 得 到 许多 重复 的 字母 ， 如 下 所 示 : 


wwwhhhaattt iissss tthhe wwweeeaatthheerrrr lllikke iiinnn bboostinn 


rrrightt nnowww. 


图 11.2 百度 深度 语音 识别 系统 的 架构 。 该 网 络 使 用 人 类 语音 录音 的 书面 转录 和 所 谓 * 连 接 时 序 
分 类 ” (connectionist temporal classification, CTC) 的 概念 进行 训练 ， 这 一 概念 搜索 标签 和 全 
连接 层 之 间 的 对 齐 


解决 这 一 问题 《至 少 是 预测 字母 序列 的 任务 ) 的 一 种 方法 是 简单 
地 在 每 个 时 刻 提取 最 有 可 能 的 字符 串 ， 然 后 删除 重复 的 字母 。 亿 这 通 
营 会 得 到 一 种 看 似 合理 但 或 许 稍 有 错误 的 转 孙 : 


o 


what is the weather like in bostin right now? 


(翻译 为 : bostin 现 在 的 天 和 气 怎 么 样 ? ) 


请 注意 , “Boston” (REM) 这 个 词 显然 被 拼 错 了 ， 但 发 音 是 正 
确 的 。 有 了 时候， 转录 在 语 首 上 大 体 正 确 ， 但 看 上 去 更 像 是 胡言 乱 语 ， 
例如 下 面 这 个 转录 : 


arther ntickets for the game.) 


这 人 句 话 应 该 被 转录 成 : "Are there any tickets for the game?” (翻译 
为 : 有 这 场 比赛 的 票 吗 ? ) 


我 们 可 以 用 英语 单词 序列 的 统计 数据 来 修正 这 些 转录 。 为 了 直观 
了 人 解 这 有 何 帮 助 ， 请 看 下 面 两 句 话 哪 一 句 听 起 来 更 目 然 ? 


e People he about spilled thing the fun secret most of the the was 
blender. 


e He spilled the secret of the blender was the most fun thing about 
people. 
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你 可 能 会 认为 第 二 句 听 起 来 更 目 然 。 如 果 你 更 仔细 地 观察 这 人 句 话 ， 并 
从 中 任意 选取 三 个 连续 的 单词 ， 这 些 单词 束 像 你 在 普通 句子 中 找到 的 
一 样 流畅 ， 而 第 一 句 台 并 非 如 此 。 百 度 的 研究 人 员 也 采用 了 同样 的 想 
法 ， 根 据 单词 在 英文 文本 中 出 现 的 频率 ， 记 录 哪 些 单词 集合 (最 长 可 


包括 5 个 单词 ) 听 起 来 最 自然 。 全 正如 你 可 以 想象 的 那样 ， 使 用 这 种 
单词 序列 的 统计 数据 可 以 大 大 缩小 可 能 的 转录 范围 。 作 为 男 一 个 练 
习 ， 你 可 以 看 看 你 是 否 可 以 预测 这 个 单词 序列 中 接 下 来 的 词 : 


rain fell from the 
(翻译 为 : WM 落下 。) 


显然 ， 这 人 句 话 能 以 “天 空 ”或 “云彩 ”这样 的 词 结尾 。 因 此 ， 即 使 这 
段 录 首 客 观 上 听 起 来 更 像 是 “rain fell from this guy”( 翻 译 为 ， 雨 从 这 
家 伙 身 上 落下 ) ， 百 度 的 语 首 识 别 系统 也 会 使 用 语言 统计 数据 选择 一 
个 更 像 “rain fell from the sky” (翻译 为 : RACK EY& P) 的 转录 。 


接 下 来 ， 百 度 的 语音 系统 使 用 一 种 搜索 算法 ， 根 据 语 音 网 络 的 和 输 
出 层 和 来 自 其 他 地 方 的 单词 序列 统计 信息 ， 找 到 最 匹配 的 字母 序列 。 
这 个 搜索 算法 与 Boss 在 停车 场 停 车 的 路 径 搜索 算法 非 党 类似， 不同 的 
征 ， 语 音 系统 不 征 寻 找 一 种 组 合 小 段 路 径 的 方法 ， 而 是 搜索 字母 序 
列 ， 语 首 系 统 并 不 在 其 成 本 函数 中 使 用 时 间 和 风险 等 因素 ， 而 是 试图 
最 大 限度 地 提高 不 同 字 母 和 单词 出 现在 其 转录 中 的 可 能 性 ， 参 考 的 是 
网 络 的 预测 和 这 些 词 在 “五 词语 言 模 型 * 中 的 统计 数据 。 


1. 为 了 训练 网 络 ， 我 们 使 用 了 一 种 叫 “ 连 接 时 序 分 类 ” (connectionist temporal 
classification, CTC) 的 特殊 方法 ， 它 搜索 转录 标签 和 时 间 序 列 之 间 的 对 齐 。 

2. Awni Hannun et al.,“Deep Speech:Scaling Up End-to-End Speech Recognition,"arXiv 
preprint arXiv:1412.5567,2014. 


3. Awni Hannun et al.,“Deep Speech:Scaling Up End-to-End Speech Recognition,"arXiv 
preprint arXiv:1412.5567,2014. 


4. Amodei et al.,“Deep Speech2.” 


为 图 像 生 成 字幕 


虽然 上 面 这 样 的 语音 识别 系统 可 以 准确 地 转录 录音 ， 但 它们 并 不 
能 理解 录音 的 内 容 。 我 们 还 远 远 没有 能 够 理解 语言 的 网 络 ， 但 研究 人 
员 已 经 找到 了 让 RNN 网 络 看 起 来 似乎 能 够 理解 语言 的 方法 。 最 近 的 一 
项 突破 是 ， 网 络 可 以 创造 出 听 起 来 很 自然 的 短语 字幕 ， 以 此 描述 图 像 
内 容 。 


这 些 图 像 字 幕 算法 的 惊人 之 处 在 于 ， 从 理解 图 像 到 生成 一 系列 单 
词 来 描述 图 像 ， 一 切 都 是 通过 神经 网 络 完成 的 〈 除 了 另 一 种 搜索 算 
法 ， 我 们 稍 后 会 看 到 ) 。 为 了 了 解 这 些 算法 ， 让 我 们 快速 浏览 一 下 它 
们 的 “前 硅 ”*， 这 些 “ 前 奋 * 把 算法 在 图 像 中 检测 到 的 物体 的 名 称 填 到 模 
板 中 。 这 些 算法 的 输出 就 像 是 你 能 指望 计算 机 程序 说 出 来 的 典型 的 “ 儿 


iB. 


There are one cow and one sky.The golden cow is by the blue sky) 
(HEA: AKAMA KE e SEEKS) 
PS—TMPPT: 


This is aphotograph of one sky,one road and one bus.The blue sky is 
above the gray road.The gray road is near the shiny bus.The shiny bus is 
near the blue sky) 


(翻译 为 : 这 是 一 张 有 一 片 天 空 、 一 条 路 和 一 辆 公共 汽车 的 照 
片 。 蓝 天 在 灰色 的 道路 上 方 。 灰 色 的 道路 靠近 内 内 发 亮 的 公共 汽车 。 
内 内 发 亮 的 公共 汽车 靠近 蓝天 。) 


FE RIK EE GA SE MA ke Toe, (HEIR aE: 照片 中 内 内 发 
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奇怪 了 。 然 而 ， 我 们 能 指望 计算 机 说 出 来 的 话 正 是 这 样 的 。 你 希望 你 
的 图 像 处 理 软 件 可 以 对 图 像 执行 低级 的 图 像 操 作 ， 例 如 调整 色彩 平 
衡 、 模 糊 像素 ， 但 并 不 指望 更 复杂 的 操作 。 我 们 同样 不 能 指望 计算 机 
以 复杂 的 方式 使 用 语言 。 

另 一 方面 ， 生 成 字幕 的 神经 网 络 方法 可 以 创建 如 下 描 壕 : 

A group of people shopping at an outdoor market 

A group of people sitting in aboat in the water 


and 


A giraffe standing in aforest with trees in the background.) 


(翻译 为 : AERATION, BEA TEZK BA — RA 
E, WA ARSE, BRENA ° ) 


生成 这 种 字幕 的 神经 网 络 使 用 一 系列 变换 ， 将 照片 转换 成 一 系列 
的 单词 。 在 第 一 个 变换 中 ， 它 们 使 用 卷 积 伸 经 网 络 来 处 理 图 像 。 这 与 
AlexNet 处 理 图 像 的 方式 非常 相似 ， 只 是 网 络 不 是 预测 狗 像 中 是 否 有 不 
同 的 物体 ， 而 十 将 图 像 编 码 成 庞大 的 数字 矢量 ， 从 而 为 网 络 的 其 余音 
分 提供 关于 场景 的 简洁 描述 。 一 旦 算法 得 到 图 像 的 矢量 摘要 ， 那 么 由 
一 系列 RNN 单 元 组 成 的 网 络 的 其 余部 分 束 会 生成 它 的 字幕 。 和 之 前 一 
样 ，RNN 单 元 由 它们 的 状态 连接 起 来 ， 链 中 的 每 个 单元 分 别 输出 字幕 


的 一 个 单词 ， 如 图 11.3 所 示 。 包 


A group of | people market ”结束 


LSTM 
LSTM 
LSTM 


每 个 循环 单元 
的 接口 


卷 积 神经 网 络 


图 11.3 一 种 图 像 字 幕 神经 网 络 。 每 个 RNN 单 元 的 状态 总 结 已 生成 的 字幕 的 数量 。 每 个 单元 的 
输出 是 单词 的 概率 分 布 ， 每 个 单元 的 输入 是 先前 生成 的 单词 。 第 一 个 单元 的 输入 是 卷 积 神经 
网 络 的 输出 


这 样 一 个 简单 的 网 络 如 何 产生 连贯 的 英文 字幕 ? 请 回忆 循环 单元 
的 关键 竺 性， 它们 使 神经 网 络 能 够 记录 状态 。 随 着 我 们 在 这 条 链 上 走 
得 更 远 ， 状 态 就 会 发 生变 化 ， 这 样 网 络 就 能 记录 已 经 说 过 和 没有 说 过 
的 内 容 。 当 每 个 单元 检查 其 当前 状态 并 输出 一 个 新 单词 时 ， 它 会 更 新 
其 内 部 状态 ， 以 便 下 一 个 循环 单元 可 以 完成 它 的 工作 。 为 了 帮助 每 个 
单元 更 新 状态 ， 每 个 循环 单元 的 输入 就 是 前 一 个 循环 单元 输出 的 音 
词 。 


我 们 可 以 将 搜索 算法 附加 到 网 络 顶部 ， 以 此 改进 网 络 生成 字 医 的 
方式 ， 吏 像 百 度 对 其 语音 识别 系统 所 做 的 那样 ， 你 可 能 对 此 不 会 感到 


惊讶 。 从 技术 上 讲 ， 神 经 网 络 的 输出 层 对 应 于 每 个 时 间 步 、 每 个 单词 
都 有 一 个 神经 元 ; 它 的 输出 值 可 以 组 合 起 来 ， 以 预测 每 个 单词 作为 序 
列 中 的 下 一 个 单词 出 现 的 可 能 性 。 根 据 我 在 几 页 前 展示 的 例子 ， 你 可 
能 会 猜 到 ， 无 论 图 像 中 有 什么 ， 第 一 个 单词 很 可 能 是 “a”《〈 一 个 ) 。 如 
果 图 像 中 有 一 只 猫 ， 那 么 下 一 个 单词 很 可 能 天 是 “cat”( 猫 ) ， 等 等 。 


搜索 算法 不 是 只 运行 一 次 模型 并 在 每 次 面临 选择 时 选择 最 可 能 的 
单词 ， 而 是 多 次 运行 模型 以 生成 多 个 单词 序列 。 每 当 它 需要 选择 一 个 
单词 时 ， 它 都 会 选择 在 模型 下 很 可 能 出 现 的 单词 ， 但 搜索 算法 会 在 最 
有 和 硕 望 的 “候选 字幕 ?中 进行 严格 搜索 : 在 某 些 友 代 中 ， 它 可 能 选 
择 “furry”( 毛 皮 ) 而 不 是 “cat”， 等 等 。 一 旦 算法 多 次 运行 模型 以 生成 
许多 可 能 的 短语 ， 它 就 会 根据 成 本 函数 来 评估 每 个 短语 ， 这 个 成 本 画 
数 会 根据 网 络 衡量 每 个 单词 序列 的 可 能 性 ， 从 而 在 众多 短语 中 找到 最 
ER s © 
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长 短 时 记忆 网 络 


由 于 RNN 有 相互 馈送 的 单元 ， 我 们 可 以 把 它们 看 作 在 时 间 上 展开 
的 深度 网 络 。( 电 在 很 长 一 段 时 间 里 ，RNN 不 能 被 构建 得 太 深 ， 因 为 我 
们 在 训练 期 间 需 要 通过 这 些 单元 链 发 送信 息 ， 而 信息 在 通过 链 的 过 程 
中 会 衰减 。 越 是 深入 循环 单元 的 链 ， 信 息 就 越 容 易 被 遗忘 。 研 究 社 区 
解决 这 一 问题 的 一 种 方法 是 使 用 控制 神经 元 来 调整 循环 单元 解释 和 修 
改 其 状态 的 方式 ， 如 图 11.4 所 示 。 针 你 可 以 把 这 些 控 制 神经 元 想象 成 
特殊 的 导线 ， 它 们 可 以 改变 神经 元 的 行为 方式 。 这 些 控 制 线 就 像 数字 
时 钟 上 的 “设置 "按钮 ， 可 以 让 你 设置 时 间 。 如 果 你 按 下 设置 按钮 ， 时 
钟 会 进入 一 个 特殊 的 模式 ， 此 时 你 按 下 其 他 按钮 便 可 以 修改 时 间 。 修 
改 完成 后 ， 你 可 以 将 时 钟 恢复 到 正常 模式 ， 即 一 秒 一 秒 地 往 前 走 。 包 
在 这 些 RNN 上 设置 了 控制 线 后 ， 它 们 的 状态 就 可 以 像 时 钟 一 样 更 新 ， 

否则 ， 它 们 会 根据 其 正常 规则 变换 状态 。 谷 歌 的 图 像 字幕 网 络 以 及 其 
他 场合 使 用 的 这 些 特殊 单元 ， 被 称 为 长 短 时 记忆 单元 ， 简 称 LSTM 

( 见 图 11.4) ° 


LE 


输出 门 


图 11.4 RNN 中 的 LSTM。 这 个 特殊 的 LSTM 是 谷歌 用 于 其 图 像 字 幕 生 成 器 的 LSTM ° 53558 
RNN 一 样 ， 其 状态 可 以 根据 在 网 络 中 观察 到 的 情况 随后 续 单 元 的 变化 而 变化 。 这 样 的 LSTM 
使 用 “ 门 ” 来 修改 每 个 单元 的 输入 、 输 出 和 状态 ， 通 常 只 需要 乘法 运算 即 可 


1. Yann LeCun, Yoshua Bengio,and Geoffrey Hinton,“Deep Learning,” Nature521(2015). 


2. Razvan Pascanu,Caglar Gulcehre,Kyunghyun Cho,and Yoshua Bengio,“How to 
Construct Deep Recurrent Neural Networks,” arXiv preprint arXiv:1312.6026,2013. 

3. ”这 个 类 比 从 某 种 程度 上 讲 是 成 立 的 : 虽然 设置 手表 是 一 种 特殊 的 行为 ， 但 网 络 可 能 
会 定期 使 用 控制 线 。 


对 抗 数据 


虽然 这 些 算法 让 自动 机 更 接近 于 理解 人 类 自然 语言 ， 但 它们 仍然 
非常 原始 ， 从 某 种 意义 上 讲 ， 它 们 很 容易 出 错 ， 特 别 是 如 果 你 有 意 所 
供 一 些 则 在 欺骗 它们 的 输入 。 例 如 ， 我 们 在 上 一 章 中 看 到 ， 我 们 可 以 
创造 视 错觉 ， 户 使 神经 网 络 认 为 它们 看 到 了 实际 上 并 不 存在 的 东西 。 
同样 ， 把 这 样 的 图 像 传递 给 生成 字幕 的 网 络 ， 也 很 容易 让 网 络 出 错 。 
机 需 学 习 领 域 的 研究 人 员 会 把 这 样 的 输入 称 为 对 抗 数据 ， 即 号 在 其 驻 
机 器 学 习 模 型 的 数据 。 


利用 对 抗 数据 来 欺骗 神经 网 络 的 想法 很 重要 ， 因 为 通过 了 解 什么 
样 的 图 像 可 以 欺骗 这 些 网 络 ， 我 们 还 可 以 了 解 如 何 使 它们 更 强大 。 最 
近 在 深度 学 习 领域 的 一 些 很 有 前 景 的 工作 采用 了 这 种 思想 ， 以 此 训练 
能 够 生成 逼真 图 像 的 网 络 。( 央 系统 的 一 部 分 尽力 生成 与 你 关心 的 菜 类 
别 图 像 类 似 的 图 像 ， 例 如 猫 脸 的 图 片 ， 而 系统 的 另 一 部 分 则 尽力 弄 清 
楚 生 成 的 图 像 是 否 来 自 这 个 类 别 。 这 些 “ 生 成 对 抗 网 络 ”(GAN) 的 两 
方 都 在 不 断 改进 ， 直 到 系统 的 生成 部 分 非常 擅长 创建 逼真 的 数据 。 这 
是 一 场 猫 提 老 鼠 的 游戏 ， 一 场 敌对 的 军备 竞赛 ， 双 方 都 竟 尽 全 力 与 对 
HEF 。 


这 似乎 不 能 让 你 一 目 了 然 地 看 出 “生成 对 抗 网 络 ” 的 作用 :我们 为 
什么 要 关注 两 个 相互 竞争 的 网 络 ?” 当 我 们 想 要 为 某 种 目的 创建 数据 
时 ， 这 些 网 络 非常 有 用 。 例 如 ， 我 们 可 能 想 要 一 个 能 生成 马 、 乌 或 人 
的 逼真 图 片 的 网 络 。 此 时 我 们 藉 可 以 用 马 和 斑马 的 岁 片 来 训练 其 中 一 
个 网 络 ， 例 如 创建 一 个 “生成 对 抗 网 络 ”， 把 马 的 照片 转换 成 以 假 乱 真 
的 斑马 图 片 ， 再 如 ， 我 们 还 可 以 训练 一 个 网 络 ， 根 据 焚 高 画作 的 风格 


生成 逼真 的 场景 。 人 国正 如 我 在 上 文 提 到 的 ， 这 些 网 络 还 可 以 用 于 生成 
非 图 像 数 据 ， 比 如 声 首 或 晕 真 的 英语 句子 。 


在 这 一 点 上 ， 让 我 们 回 到 构建 理解 人 类 语言 的 程序 时 所 遇 到 的 困 
难 。 到 目前 为 止 ， 我 们 所 讨论 的 程序 仍然 远 远 不 能 理解 人 类 语言 。 它 
们 可 以 生成 简短 的 句子 来 描述 冬 像 ， 但 是 当 你 仔细 观察 这 些 算 法 时 ， 
你 很 快 就 会 发 现 它们 的 局 限 。 


在 本 书 的 第 一 章 中 ， 我 提 到 了 IBM 的 “ 沃 森 “， 它 在 美国 游戏 节目 
《危险 边 毕 》 中 击败 了 冠军 肯 : 詹 宁 斯 和 布 拉 德 : 鲁 特 。 那 么 你 可 能 会 
想 ， 如 果 我 们 还 远 远 没 有 设计 出 能 理解 人 类 目 然 语言 的 机 器 ， 那 么 < 沃 
和 村 ”和 皇 么 能 在 一 个 似乎 需要 参赛 者 理解 英语 语言 细微 差别 的 游戏 中 表现 
得 如 此 出 色 ? 当然 ， 在 这 个 项 目 中 有 一 些 巧 妙 的 设计 ， 但 是 我 们 将 在 
第 12 革 中 看 到 ,“ 沃 森 * 并 不 是 为 了 理解 问题 而 设计 的 ， 而 是 为 了 回答 
问题 而 设计 的 。 


1. Ian Goodfellow et al.,“Generative Adversarial Nets,"Advances in Neural Information 
Processing Systems(2014):2672—2680. 


2. Jun-Yan Zhu et al.,“Unpaired Image-to-Image Translation Using CycleConsistent 
Adversarial Networks,"arXiv preprint arXiv:1703.10593,2017. 


12 理解 目 然 语 言 


< 沃 森 " 不 会 导 场 、 不 会 骄傲 、 不 会 诅 形 。 它 总 是 冷冰冰 地 、 不 动 
声色 地 玩 游戏 ， 一 旦 找到 有 把 握 的 答案 ， 它 的 抢答 器 就 会 在 第 一 时 间 
喻 喻 响起 。 


HET 
《危险 边缘 》 节 目 人 类 冠军 但 


1. Ken Jennings,“My Puny Human Brain,” Slate Magazine,February16,2011,accessed 
June16,2017,http://www.slate.com/articles/arts/culturebox/2011/02/my_puny_human_brain.ht 
ml. 


EARRA, DEA LHR EE? 


2006 年 ， 塞 巴 斯 带 安 ' 特 龙 在 一 次 人 工 智能 会 议 上 介绍 了 他 和 他 的 
同事 为 第 二 次 DARPA 无 人 车 挑战 赛 开发 的 目 动 驾驶 汽车 斯 坦 利 。 观 从 
们 顾 为 震惊 。 得 克 院 斯 大 学 奥 斯 洒 分 校 的 研究 生 詹 姆 斯 -法 恩 James 
Fan) 也 在 观众 之 列 ， 他 那 时 正在 研究 问答 系统 ， 这 古 计算 机 科学 的 一 
个 冷门 领域 ,人 致力 于 开发 能 够 回答 书面 问题 的 计算 机 程序 。 和 詹姆斯 看 
ERCE INAH, ATUL ° 


后 来 ， 他 对 一 群 同事 说 道 ; “如 果 出 现 一 个 由 亚 历 克 斯 . 特 里 贝克 
(Alex Trebek) 主持 的 问答 挑战 赛 ， 那 则 不 是 太 棒 了 9? "个 特 里 贝克 
是 美国 流行 游戏 节目 《危险 边缘 》 的 主持 人 ， 在 这 档 节 目 中 ， 参 赛 者 
必须 具备 百科 全 书 式 的 琐碎 知识 ， 从 古代 史 到 生物 学 ， 再 到 电影 ， 无 
所 不 包 。 在 节目 中 ， 特 里 贝克 会 根据 答案 向 参赛 者 提供 线索 ， 参 赛 者 


必须 根据 这 些 线索 推断 出 答案 ， 同 时 以 问题 的 形式 表述 出 来 。 久 
詹姆斯 的 同事 对 他 的 想法 一 笑 置 之 。 特 里 贝克 是 个 大 名 人 ， 政 府 


的 薪酬 计划 和 人 研究 拨款 根本 不 足以 文 付 他 的 出 场 费 。 他 们 认为 ， 这 对 
问答 系统 领域 可 能 是 很 好 的 宣传 ， 但 这 是 在 挥霍 纳 税 人 的 钱 。 


1. James Fan,personal correspondence with author,June9,2017. 
2. 参赛 者 如 果 无 法 完成 ， 就 会 输 掉 比赛 。https:/www.youtube.com/watch? 


v=Y0p03rRM6Pw. 


IBM 的 “ KAR” 


将 近 5 年 之 后 ， 在 2011 年 1 月 的 两 个 寒冷 的 日 子 里 ，《 人 危险 边缘》 
历史 上 最 成 功 的 两 位 人 类 选手 肯 : 詹 宁 斯 和 布 拉 德 : 鲁 特 在 节目 中 与 “ 活 
森 * 对 决 。“ 沃 森 * 是 IBM 的 一 组 研究 人 员 开 发 的 计算 机 程序 。( 时 这 场 比 
赛 是 在 IBM 的 一 座 研究 大 楼 里 举行 的 ，“ 沃 森 * 在 隔壁 数据 中 心 的 计算 
机 机 架 上 运行 ， 被 完全 切断 了 互联 网 。 在 寒冷 的 数据 中 心里 ， 阔 哆 的 
风扇 呼啸 着 吹 过 数 千 个 CPU (中 央 处 理 器 ) 99) 


临时 演播 室 比 数据 中 心 和 室外 寒冷 的 冬日 要 温暖 得 多 。IBM 邀 请 
了 亚 历 克 斯 - 特 里 贝克 来 主持 这 场 比赛 ， 参 赛 者 在 题 板 上 选 定 主题 类 别 
后 ， 特 里 贝克 会 为 他 们 提供 线索 。 参 赛 者 想 出 答案 后 会 抢答 。 当 “ 沃 
森 ” 知 道 答案 时 ， 它 也 会 通过 电子 机 械 系 统 抢答 ， 它 的 电磁 阀 拇 指 会 第 
一 时 间 按 下 抢答 器 。( 时 


“这 里 不 需要 赁 票 入 场 ， 它 是 法 洞 的 边界 ， 任 何 物 质 都 不 能 从 那里 
逃脱 。” 竺 里 贝克 说 道 。 


“ 沃 森 " 立 即 准确 无 误 地 给 出 了 答案 ， 只 见 它 的 屏幕 闪烁 着 ， 一 个 
柔和 的 机 械 声音 (一 位 记者 将 其 形容 为 “流畅 、 温 和 的 男性 语调 ") m8 
EG. “事件 视界 演 是 什么 ? ” 


比赛 远 未 结束 ， 和 詹 宁 斯 和 和 鲁 特 就 意识 到 他 们 毫 无 机 会 了 。 这 场 比 
赛 对 他 们 而 言 堪 称 耻辱 。 当 为 期 两 天 的 挑战 赛 结束 时 ， 詹 宁 斯 说 得 了 
240005270, SEPT [ 216005270, MARR RA TS T 77147870, 
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时 ， 在 下 面 写 了 一 份 认输 声明 : “我 ， 作 为 一 个 人 ， 欢 迎 我 们 新 的 机 器 
人 霸主 。” 
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Larry Dignan,“IBM’s 


Watson Victorious in Jeo 


pardy;Our New Computer 


Overlord?” ZDNet,February16,2011,accessed June16,2017,http://www.zdnet.com/article/ibms- 


watson-victorious-in-jeopardy-our-new-computeroverlord. 


Jeopardy,television broadcast,hosted by Alex Trebek,2011;John Marko, Computer Wins 


on Jeopardy!:Trivial,It's Not,"New York Times,February16,2011. 


Dr 


Jennings, "My Puny Human Brain.” 


Casey Johnston,“Bug Lets Humans Grab Daily Double as Watson Triumphs on 
Jeopardy,” Ars Technica,February17,2011. 


E 


E AE 


视界 ， 是 一 种 时 空 的 


Fay 


HEAT, LSE PAE fry Se 4 


Dignan,“IBM’s Watson Victorious in Jeopardy.” 


都 无 法 对 视界 外 的 观察 者 产 


攻克 《危险 边缘 》 所 遇 到 的 挑战 


“ 沃 和 森 ?” 遥 遥 领 先 于 回答 琐碎 问题 的 第 二 优秀 的 计算 机 程序 。 为 了 
了 解 为 什么 “ 沃 和 森 ”会 取得 如 此 重大 的 突破 ， 让 我 们 来 看 看 “ 沃 牺 ” 需 要 
回答 的 儿 条 线索 。 下 面 是 《危险 边缘 》 中 关于 2008 年 奥运 会 的 一 个 例 
子 : 


米 洛 拉 德 . 碍 维 奇 (MiloradCavit) 差点 儿 破 坏 了 这 个 人 完美 的 
2008 年 奥运 会 ， 仅 以 百 分 之 一 秒 的 劣势 输 给 了 他 。 


PIER TI ARIA: 


SOGHZRIJSEJU: JT KE LMS, 这 是 一 只 巨 眼 ， 伙 计 
111. MNSREIEH 


下 面 还 有 一 条 线索 ， 属 于 “主要 蔬菜 ”类别 : 
FEK o 


花 点 时 间 考虑 一 下 计算 机 会 如 何 给 出 这 些 线索 对 应 的 问题 ， 它 必 
须知 道 哪些 信息 ， 如 何 存储 这 些 信息 ， 以 及 如 何 处 理 问题 来 查找 这 些 
信息 。 而 且 别 忘 了 ，IBM 的 研究 人 员 不 能 仅仅 编程 沃 森 * 去 阅读 问 
题 ， 理 解 问题 ， 然 后 根据 它 阅读 的 内 容 想到 答案 。 它 的 程序 员 需 要 
为 " 沃 森 "提供 明确 的 操作 序列 ， 让 它 可 以 按照 这 些 操作 序列 来 回答 每 
条 线索 。 


IBM 的 “ 沃 森 ”无 法 像 人 类 一 样 理解 每 个 单词 的 信义 ， 更 不 用 说 一 
组 单词 了 。 尺 管 如 此 ， 它 还 是 成 功 地 击败 了 两 位 人 类 冠军 。 在 下 文 


中 ， 我 们 将 更 深入 地 人 研究“ 沃 森 ” 钙 如 何 做 到 这 一 点 的 。 现 在 ， 我 们 将 
从 谜 题 的 第 一 部 分 开始 :“ 沃 森 ” 如 何 理解 线索 到 辰 在 问 什么 。 


洛 如 烟 海 的 知识 


从 表面 上 看 ， 有 些 《 危 险 边缘 》 的 问题 对 计算 机 而 言 可 能 很 容易 
回答 : 《危险 边缘 》 是 一 个 智力 竞赛 节目 ， 而 智力 竞赛 节目 是 关于 知 
WARS 。* 沃 森 " 有 4TB ( 太 字 节 ) 硬盘 来 存储 知识 数据 库 。 人 这 应 该 能 
让 我 们 找到 构建 “ 沃 森 ”的 大 部 分 方法 ， 对 吧 ? 

例如 ， 请 看 下 面 这 条 《危险 边缘 》 的 线索 ， 该 线索 出 现在 "作者 是 
谁 ” 的 类 别 下 s 9 

一 场 名 为 “ 惧 恨 拉 斯 维 加 斯 ”的 “野蛮 之 旅 ”。 


下 面 是 男 一 个 例子 ， 在 “作者 的 中 间 名 ”类 别 下 。 


爱 伦 ， 从 1849 年 10 月 7 日 开始 “ 永 不 复 还 ”。 


想 要 回答 这 些 问 题 , “TRA BAI SS. AR (Hunter 
S.Thompson) 写 出 了 《 慢 恨 拉 斯 维 加 斯 》， 埃 德 加 : 爱 伦 : 坡 (Edgar 
Allan Poe) 逝世 于 1849 年 10 月 7 日 ， 或 是 至 少 知道 这 位 作家 与 短语 “ 永 
ARB Re HB mt oe e © 


诸如 此 类 的 知识 可 以 被 存储 在 数据 库 中 ， 而 * 沃 森 ” 在 任何 时 候 都 
会 存储 这 样 的 知识 。 这 些 知识 被 称 为 天 系 。 关 系 是 人 、 地 方 和 事物 之 
间 的 联系 。 其 中 一 种 关系 是 作者 和 作品 的 关系 ， 它 可 以 给 出 上 述 第 一 
条 线索 的 答案 : 


表 12.1 


查尔斯 :狄更斯 作品 《圣诞 颂歌 》 
UG S 汤普森 作品 4《 惧 恨 拉 斯 维 加 斯 》 
J. K. 3f 作品 CRA- 波 特 与 魔法 石 》 


对 上 文中 的 第 二 条 线索 有 帮助 的 另外 一 种 关系 ， 即 人 与 其 逝世 时 


间 的 关系 : 
表 12.2 
RABIN - 爱 伦 . 坡 逝世 时 间 1849 4E 10 H 7 H 
亚伯拉罕 林肯 逝世 时 间 1865 ^F A4 H 15 H 
成 吉 思 汗 逝世 时 间 1227 44.8 A 18 H 


可 以 想象 ， 可 能 的 关系 是 无 穷 无 尽 的 ,“ 沃 森 ” 存 储 了 数 百 万 种 关 
系 ， 用 于 记录 日 期 、 电 影 、 书 籍 、 人 物 、 地 点 等 。 


但 是 ， 仅 插 数 以 百 万 计 的 关系 ,“ 敖 森 ” 仍 然 无 法 回答 《危险 边 
经 》 的 问题 。 以 我 上 文 提 到 的 “ 沃 森 ”参赛 时 遇 到 的 线索 为 例 : 


被 通缉 的 罪犯 ， 最 近 一 次 在 巴 拉 多 塔 出 现 ， 这 是 一 只 巨 上 腿 ， 伙 计 
Ms NRE 


虽然 “ 沃 森 * 给 出 了 正确 的 答案 “ 索 伦 是 谁 *”， 但 “ 沃 森 " 不 太 可 能 
有 “ 巨 眼 * 的 关系 ， 更 不 用 说 “ 谁 长 着 巨 眼 ” 的 关系 。( 时 除了 索 伦 是 《 指 
环 王 》 中 的 一 个 角色 ，《 指 环 王 》 的 作者 是 托 尔 金 (JR.R.Tolkien) 之 
外 ,“ 沃 森 ” 的 结构 化 数据 库 中 不 太 可 能 有 任何 关于 索 伦 的 东西 。 就 像 
自动 驾驶 汽车 无 法 预见 一 位 坐 在 电动 轮椅 上 的 妇女 在 马路 中 间 追 赶 一 


只 鸭子 这 样 的 罕见 情况 (我 们 知道 这 是 目 动 驾 驶 汽车 遇 到 的 真实 情 
Uh) 一 样 ,，“ 沃 森 ” 背 后 的 研究 人 员 也 不 可 能 预见 到 所 有 可 能 出 现在 线 
索 中 的 关系 。 


“ 沃 森 "面临 的 另 一 个 挑战 是 ，《 危 险 边缘 》 的 线索 表 壕 方式 多 种 
多 样 。 以 上 文中 埃 德 加 . 爱 伦 : 坡 的 线索 为 例 ， 他 在 1849 年 " 永 不 复 
还 "了 。“ 活 森 " 需 要 一 些 方法 来 认识 到 一 个 人 “ 永 不 复 还 "是 “死亡 "的 同 
义 词 。“ 活 森 " 使 用 了 字典 和 主题 词 表 ， 但 典型 的 主题 词 表 不 会 将 < 永 不 
复 还 " 列 为 “死亡 ”的 同义词 。 同 义 词 只 有 在 这 个 语 境 中 才 有 意义 ， 
为 < 永 不 复 还 "是 埃 德 加 . 爱 伦 - 坡 一 首 诗 中 的 著名 诗句 。 虽 然 关系 使 “ 活 
森 * 能 够 简单 地 在 数据 库 中 “查找 "答案 ， 但 只 有 1/4 的 问题 是 从 这 些 关 
MEN * 更 糟糕 的 是 ,“ 沃 森 " 能 简单 地 “查找 "到 管 案 的 线索 只 
2% ° 


那么 ,“ 沃 森 ? 如 何 回 答 剩 下 的 98% 的 线索 昵 ? 它 通 过 系统 地 分 析 
线索 ， 仔 细 梳 理 关 键 信息 来 做 到 这 一 点 。 
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《危险 边缘 》 挑 战 赛 的 诞生 


MEAR ARETHA ERDA, WIE (Stephen 
Baker) 出 版 了 一 本 畅销 书 《和 危险 边缘 总 决赛 》 (FinalJeopardy) ° jX 
本 书 最 初出 版 的 是 电子 版 ， 书 的 最 后 一 章 直 到 比赛 在 电视 上 播 出 后 才 
发 布 ， 读 者 需要 等 竺 才能 阅读 ， 而 且 这 一 章 是 在 节目 播 出 后 以 电子 版 
发 布 的 〈 并 包含 在 随后 的 印刷 版 中 ) 。 除 此 之 外 ， 书 中 还 描述 了 IBM 
的 团队 如 何 决定 开发 一 个 玩 《 人 危险 边 绿 》 的 程序 ， 这 个 故事 我 在 下 文 
SHRI » ©) 


在 21 世 纪 初 ，IBM 一 直 在 寻找 一 项 挑战 赛 ， 公 开展 示 公 司 的 技术 
实力 。 对 IBM 而 言 ， 找 到 这 样 的 挑战 很 重要 ， 因 为 TBM 拥 有 利润 丰厚 
的 咨询 业务 ， 而 这 项 业务 依赖 于 客户 对 公司 在 大 数据 和 大 规模 计算 等 
领域 处 于 领先 地 位 的 信心 。1997 年 ，IBM 凭 借 * 深 蓝 " 击 败 了 国际 象棋 
冠军 加 里 . 卡 斯 帕 罗 夫 ， 这 便 是 一 个 成 功 案 例 。 因 此 ， 每 个 人 心中 都 有 
再 挑战 一 次 的 想法 。 轩 


我 们 很 难 准确 地 追溯 挑战 《危险 边缘 》 最 初 的 想法 是 始 于 何 处 ， 
IBM 员 工 的 描述 各 不 相同 。 有 一 种 说 法 是 ，2004 年 的 一 个 秋 日 ，IBM 
的 一 位 高 级 经 理 在 一 家 牛排 餐厅 里 产生 了 这 个 想法 。 他 注意 到 其 他 顾 
客 全 都 抛 下 了 他 们 未 动 过 的 饭菜 ， 来 到 餐厅 的 另 一 个 区 域 。 他 们 到 集 
在 电视 机 周围 ， 足 足 围 了 三 层 ， 观 看 詹 宁 斯 著名 的 连 胜 表 演 。 连 续 赢 
了 50 多 场 比赛 后 ， 往 宁 斯 还 会 继续 赢 下 去 吗 ? IBM 的 经 理想 知道 ， 如 
果 公 众 对 这 个 比赛 如 此 着 迷 ， 那 么 他 们 对 人 类 和 计算 机 之 间 的 比赛 会 
同样 感 兴 趣 吗 ? (3) 


然而 ，IBM 挑 战 《 危 险 边 缘 》 的 想法 实际 上 已 经 开始 了 (至 少 公 
司 的 另 一 名 员工 认为 他 有 这 个 想法 ， 而 我 们 在 本 草 开始 时 看 到 的 和 詹 姆 


斯 :法 恩 也 有 这 个 想法 ) ， 一 县 这 文 些 想法 合流 ， 就 会 遇 到 很 多 内 部 阻 
力 。 有 些 人 认为 挑战 《危险 边缘 》 只 是 个 宣传 唆 头 ， 可 能 会 浪费 金钱 
和 研究 人 员 时 间 ， 更 糟糕 的 是 ， 这 可 能 会 危及 公司 的 信誉 。 虽 然 存在 

这 样 的 阻力 ， 但 IBM 的 3000 人 研究 部 门 的 负责 人 还 是 向 他 的 一 些 研 究 
人 员 推 荐 了 这 个 项 目 ， 其 中 一 位 研究 人 员 就 是 戴 维 : 费 鲁 奇 (David 


Ferucci) ° 


费 鲁 奇 熟悉 他 们 可 能 面临 的 问题 ， 因 为 他 管理 的 一 个 研究 团队 已 
经 在 一 个 问答 系统 上 耕耘 了 数 年 之 久 。 他 们 的 问答 系统 是 世界 上 最 好 
的 问答 系统 之 一 ， 而 且 在 比赛 中 一 直 表 现 出 色 。 但 费 鲁 奇 和 他 的 团队 
也 知道 ， 这 些 系统 目前 还 远 远 不 能 挑战 《危险 边缘 》 。 尽 管 如 此 ， 他 
还 是 把 问题 交 给 了 他 的 团队 。 团 队 中 只 有 一 个 人 对 这 个 想法 持 乐 观 态 
度 ， 这 个 人 便 是 詹姆斯 -法 恩 ， 他 刚刚 获得 博士 学 位 ， 加 入 了 这 个 团 
队 。 电 但 是 团队 得 出 的 结论 是 ， 这 个 领域 还 没有 准备 好 ， 项 目 将 会 非 
常 艰难 。 费 鲁 奇 也 告诉 研究 负责 人 ， 最 好 不 要 继续 这 个 项 目 。( 周 


不 久 ， 研 究 负 责 人 又 回来 间 起 《危险 边缘 》 的 项 目 ， 费 鲁 奇 和 他 
的 团队 又 一 次 回 到 会 议 室 进 行头 脑 风 暴 。 E “他们 的 
结论 大 致 相同 ， 能够 回答 《危险 边缘 》 问 题 的 系统 需要 比 他 们 目前 的 
系统 快 得 多 ， 它 需要 回答 更 广泛 的 问题 ， 而 且 ， 最 困难 的 是 ， 它 需要 
更 准确 地 回答 这 些 问题 。 有 太 多 开放 的 研究 问题 需要 解决 ， 项 目 似乎 
毫 无 希望 。 但 最 终 ， 在 成 功 的 可 能 性 和 一 些 关于 如 何 继续 下 去 的 预感 
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DeepQA 
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标准 看 来 很 不 错 的 问答 系统 。IBM 已 经 为 此 投入 了 大 量 资源 ， 一 个 4 人 
团队 花费 了 6 年 时 间 开 发 了 这 个 系统 。 但 是 他 们 现 有 的 系统 并 不 适用 于 
《危险 边缘 》， 因 此 费 鲁 奇 的 团队 花 了 大 约 一 个 月 时 间 来 改造 它 。 


费 鲁 奇 的 团队 还 需要 一 种 方法 来 评估 他 们 的 系统 。 季 运 的 是 ， 他 
们 在 互联 网 上 发 现 了 《和 危险 边缘 》 的 线索 和 答案 的 至 库 。 《危险 边 
绿 》 的 热心 “粉丝 ?创建 了 一 个 网 站 ， 其 中 包含 了 《危险 边缘 》 克 目 中 


所 有 的 问题 和 答案 ， 他 们 还 用 详细 的 信息 对 问题 做 了 注解 。 2 


IBM 团 队 利 用 这 个 网 站 搜集 了 《危险 边缘 》 以 往 获 胜 者 的 表现 统 
计数 据 : 《危险 边缘 》 的 获胜 者 抢答 的 概率 是 多 少 ?他们 抢答 后 给 
正确 答案 的 概率 是 多 少 ? 费 鲁 奇 的 团队 创建 了 这 两 组 数据 的 散 点 图 ， 
这 扒 数据 点 说 明了 《和 危险 边缘 》 以 往 获 胜 者 回答 问题 的 准确 率 高 低 和 
得 分 多 少 。 他 们 称 这 个 图 为 “优胜 者 云 "， 并 用 它 作 为 衡量 “ 沃 森 ”水 准 
的 标杆 。( 志 如 果 他 们 能 把 * 沃 森 " 移 到 点 云 中， 那么 < 沃 森 ?就 能 与 人 类 
优胜 者 相 妮 美 。 如 采 他 们 能 把 “ 沃 森 ” 移 过 点 云 ， 那 么 “ 沃 森 ” 束 能 战胜 
这 些 人 类 优胜 者 。 


在 团队 花 了 一 个 月 的 时 间 将 以 前 的 系统 改造 为 挑战 《危险 边缘 》 
的 系统 之 后 ， 他 们 采用 一 些 指标 对 其 进行 了 评估 。 但 他 们 改造 后 的 系 
统 表现 糟糕 : 如果 “ 沃 木 " 回 答 了 它 最 有 信心 的 62% 的 问题 一 这 与 肯 - 
詹 宁 斯 回答 问题 的 平均 百分比 相同 ， 那 么 它 只 能 答对 13% 的 问题 。 而 
要 与 钳 宁 斯 竞争 ，“ 沃 森 " 需 要 答对 92% 以 上 的 问题 o Oft HR E 
己 需 要 使 用 大 不 相同 的 方法 。 


他 们 现 有 系统 的 失败 实际 上 是 费 鲁 奇 的 一 种 策略 :团队 需要 认识 
到 ， 他 们 目前 的 系统 和 传统 的 方法 已 经 失败 了 。 通 过 失败 ， 他 们 可 以 
从 头 开始 ， 用 全 新 的 方式 看 待 事物 。( 当 


于 是 ， 费 鲁 奇 和 他 的 团队 进行 了 实验 ， 采 用 了 学 术 文 献 中 最 先进 
的 方法 。 经 过 几 个 月 的 实验 ， 团 队 终 于 找到 了 一 种 狐 似 可 行 的 架构 ， 
他 们 称 之 为 DeepQA (深度 问答 ) 。( 舍 peepQA 背 后 的 方法 很 简单 。 像 
许多 其 他 问答 系统 一 样 ，DeepQA 只 需 执行 几 个 具体 步骤 即 可 得 出 答 
案 ， 如 图 12.1 所 示 : 分 析 问 题 ， 用 搜索 引 警 找到 候选 答案 ， 研 究 这 些 
答案 ， 并 根据 为 它们 找到 的 证 据 对 这 些 答案 进行 评分 。 在 本 章 的 余下 
部 分 中 ， 我 们 将 重点 关注 此 流程 的 第 一 阶段 :“ 沃 森 * 的 问题 分 析 阶 
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分 析 问 题 对 答案 进行 


评分 和 排名 


从 


图 12.1 非常 复杂 的 DeepQA 流 程 的 基本 概述 
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问题 分 析 


“ 沃 森 ? 的 问题 分 析 阶 段 的 目标 是 将 一 个 问题 分 解 成 多 个 信息 片 
段 ， 这 些 信息 片段 对 于 在 后 续 的 流程 中 查找 和 评估 答案 是 非常 有 用 
的 。 与 “ 沃 森 * 的 大 多 数组 成 部 分 一 样 ， 问 题 分 析 阶段 在 很 大 程度 上 依 
赖 于 自然 语言 处 理 (NLP) 。 自 然 语言 处 理 让 “ 沃 森 ” 能 够 用 构成 线索 
的 单词 做 一 些 有 意义 的 事情 :“ 沃 森 * 用 它们 找到 线索 中 单词 的 词性 ， 
在 线索 中 搜索 人 名 和 地 名 ， 并 创建 线索 的 句 型 图 。( 早 


在 问题 分 析 阶 段 ,，“ 沃 森 ” 最 重要 的 任务 古 在 线索 中 找到 可 以 概括 
出 线索 具体 要 求 的 词组 。 以 下 面 这 条 线索 为 例 : 


B 型 肝脏 炎症 是 通过 某 些 个 人 接触 传播 的 。 


概括 出 这 条 线索 具体 要 求 的 词组 是 “肝脏 炎症 ”。* 沃 森 ? 的 研究 人 
员 称 这 个 词组 为 重点 。 重 点 是 线索 的 一 部 分 ， 如 采用 答案 取代 它 ， 线 
索 就 会 变 成 事实 陈述 。( 罗 如 果 我 们 用 答案 “肝炎 ”取代 线索 的 重点 ， 它 
WL E p: 

B 型 肝炎 是 通过 某 些 个 人 接触 传播 的 。 


现在 它 变 成 了 一 条 事实 陈述 。 下 面 是 男 一 个 例子 : 


2005 年 ， 这 对 无 敌 搭档 调查 了 “ 免 怪 的 诅 见 ”。 
在 这 条 线索 中 ， 重 点 是 “这 对 无 敌 搭档 ”。 用 答案 代替 重点 ， 我 们 


2005 年 ， 华 莱 士 和 格 罗 米 特 沁 调查 了 “ 兔 怪 的 诅 忠 "。 


这 同样 是 一 条 事实 陈述 。 通 过 找到 重点 ,“ 沃 森 ” 可 以 利用 这 些 信 
居 生 成 可 能 的 答案 并 对 管 案 进 行 评分 。 现 在 我 们 将 其 应 用 到 上 文中 那 
条 关于 2008 年 奥运 会 的 线索 ， 它 的 重点 是 “这 个 人 >”: 


米 说 拉 德 得 维 奇 差 点 儿 破 坏 了 这 个 人 完美 的 2008 年 奥运 会 ， 仅 以 
百 分 之 一 秒 的 劣势 得 给 了 他 。 


“ 沃 森 ?" 从 问题 中 提取 的 另 一 类 信息 是 描述 答案 类 型 的 单词 或 词 
组 。( 迪 线索 要 求 的 是 一 位 总 统 ? 一 座 城市 ? 像 肝 炎 那 样 的 炎症 ? 或 是 
像 生菜 那样 的 食材 ? 同样 ，“ 沃 森 * 利 用 这 些 信息 提 出 候选 答案 ， 并 在 
后 续 的 流程 中 对 其 进行 评分 。 我 将 在 下 一 章 详细 描述 “ 沃 森 * 如 何 使 用 
这 些 信 息 ; 现 在， 你 只 需要 知道 < 沃 森 ? 在 这 个 阶段 存储 了 这 些 信息 ， 
这 样 它 就 可 以 在 后 续 阶 段 中 选择 并 缩小 可 能 的 答案 范围 。 例 如 ， 如 果 
问题 问 的 是 一 种 疾病 ， 那 么 < 沃 森 ? 就 可 以 给 那些 实际 是 疾病 的 候选 答 
案 更 高 的 权重 ， 而 给 诸如 疾病 症状 这 样 的 候选 答案 较 低 的 权重 ， 从 而 
在 后 续 阶 段 缩小 候选 答案 范围 。 答 案 类 型 通常 是 重点 的 一 部 分 ， 因 此 
如 果 * 沃 森 ” 能 够 找到 重点 ， 那 么 它 很 有 可 能 找到 答案 类 型 。 在 我 们 那 
条 关于 2008 年 奥运 会 的 线索 中 ， 答 案 类 型 是 人 。 因 此 ,“ 沃 森 ? 会 在 后 
续 的 流程 中 使 用 这 一 信息 ， 把 候选 答案 的 范围 缩小 到 人 。 


有 时,“ 沃 森 * 的 线索 中 只 有 几 个 名 词 或 动词 可 以 用 于 搜索 。 我 们 
在 上 文 看 到 的 一 条 线索 中 只 有 一 个 词 : 凉拌 菜 丝 。( 因 当 “ 沃 森 " 在 这 种 
情况 下 找 不 到 答案 类 型 时 ， 它 会 在 线索 的 类 别 中 搜索 答案 类 型 。 
(《 和 危险 边缘 》 中 的 每 个 问题 都 被 分 配 到 一 个 类 别 中 ， 选 手 看 到 问题 
时 都 可 以 看 到 这 个 类 别 。) 线索 “凉拌 菜 丝 ” 的 类 别 是 “常见 蔬菜 "， 所 
以 在 这 种 情况 下 ,，“ 沃 森 * 可 以 将 答案 类 别 设置 为 蔬菜 ， 这 会 帮助 它 找 
到 正确 答案 ， 卷心菜 。 


“ 沃 森 ” 还 在 线索 中 寻找 专 有 和 名词、 日 期 和 关系 。 通 过 寻找 专 有 名 
词 ,，“ 沃 森 ” 可 以 在 随后 寻找 候选 答案 时 更 加 专注 。 在 天 于 2008 年 奥运 


会 的 线索 中 ， 它 会 找到 “* 米 说 拉 德 :得 维 奇 "这 个 名 字 和 "2008 年 奥运 
会 ”这 个 词组 。 它 还 会 意识 到 2008 年 是 线索 中 的 一 个 日 期 。 


于 是 ,“ 沃 森 ? 继 续 剖 析 线 索 ， 从 中 梳理 出 一 些 有 用 的 信息 。 对 于 
其 中 二 些 信 筷 ; <“ 活 森 "使 用 了 简单 的 模式 匹配 。 例 如 ， 通过 让 沃 森 搜 
索 以 1 或 2 开头 的 4 位 数 序列 ， 我 们 可 以 很 容易 地 让 它 搜 索 日 期 。 但 “ 沃 
森 ” 要 从 线索 中 提取 其 他 信息 ， 比 如 线索 的 重点 和 答案 类 型 ， 就 需要 一 
套 更 复杂 的 工具 了 。 


1. Ferrucci et al.,“Building Watson.” 


2. Adam Lally et al.,“Question Analysis:How Watson Reads aClue,"IBMJournal of 
Research and Development56,no.3.4(2012). 


3. ， 华 莱 士 和 格 罗 米 特 是 卡通 片 《 免 怪 的 诅咒 》 中 的 角色 ， 被 称 为 无 敌 搭档 。 一 一 译 者 


4. “ 沃 森 ” 的 研究 人 员 称 之 为 “词汇 回答 类 型 ” (lexical answer type, LAT) 。 
5. ”这 条 线索 可 以 在 J-Archive 网 站 上 找到 ， 请 访问 2017 年 6 月 16 日 的 节目 


http://www.j-archive.com/showgame.php?game_id=3652 ° 
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6. Lally et al., “Question Analysis." 


“ 沃 森 " 如 何 解读 句子 ? 


现代 目 动 机 与 世界 交互 的 最 重要 方式 之 一 是 感知 。 我 们 已 经 看 到 
了 目 动 驾驶 汽车 如 何 感知 周围 的 环境 ， 它 使 用 激光 扫 摘 仪 、 摄 像 机 和 
加 速度 计 来 创建 环境 模型 。“ 沃 森 ” 没 有 油光 扫描 仪 或 加 速度 计 ， 也 没 
有 用 来 阅读 屏幕 的 摄像 机 和 用 来 听 亚 历 克 斯 - 特 里 贝克 讲话 的 传 声 絮 。 
线索 被 以 电子 文本 文件 的 形式 传递 给 “ 沃 森 ”。 当 “ 沃 森 ” 查 看 文本 文件 
时 ， 它 看 到 的 不 过 是 一 串 有 序 的 字母 序列 ， 因 此 它 使 用 了 目 然 语言 处 
理 领 域 的 技巧 来 理解 它们 。 


“ 沃 森 ” 理 解 这 些 字符 的 第 一 种 方式 是 将 线索 解释 为 单词 序列 ， 而 
不 古 子 母 序 列 。 一 旦 “ 沃 森 ” 将 一 条 线索 解释 为 一 系列 单词 ， 它 束 可 以 
使 用 一 些 更 有 趣 的 技巧 来 处 理 线索 。 这 些 技巧 中 最 重要 的 古 用 人 句 型 图 
绘制 出 线索 的 结构 ， 就 像 你 在 小 学 时 做 的 那样 。 计 算 机 在 一 个 叫 “ 句 法 
分 析 ” 的 过 程 中 创建 句 型 图 ， 生 成 的 句 型 图 通 和 被 称 为 解析 树 。 你 可 以 
在 图 12.2 中 看 到 有 关 2008 年 奥运 会 那 条 线索 的 解析 树 。 在 这 条 线索 
中 ， 主 语 是 专 有 和 名词“ 米 洛 拉 德 : 查 维 奇 "， 动 词 是 “破坏 >"， 句 子 的 其 余 
部 分 修饰 动词 短语 。 (这 不 是 “ 沃 森 ” 解 析 句 子 的 确切 方式 ， 但 基本 思 
路 是 这 样 的 。) 一 旦 “ 沃 木 * 有 了 句子 的 句 型 图 ， 它 就 可 以 用 句 型 图 对 
问题 进行 更 有 趣 的 分 析 ， 我 们 很 快 瑟 会 谈 到 这 个 问题 。 但 月 完 ， 让 我 
们 简要 地 看 一 下 像 “ 沃 森 ” 这 样 的 程序 如 何 创建 解析 树 。 
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图 12.2“ 米 洛 拉 德 . 查 维 奇 差点 儿 和 破坏 了 这 个 人 完美 的 2008 年 奥运 会 ， 仅 以 百 分 之 一 秒 的 劣势 输 
了 他 。” 这 句 话 的 解析 树 。 这 个 解析 树 属 于 传统 的 “句法 分 析 ”， 很 像 你 小 学 时 学 过 的 东 
西 。“ 沃 森 ” 并 不 是 完全 像 这 样 分 析 句 子 ， 但 基本 思路 是 这 样 的 


AWS 
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计算 机 可 以 使 用 搜索 算法 创建 解析 树 ， 这 很 像 Boss 在 城市 环境 中 
规划 路 径 的 方式 。“ 沃 森 ” 的 解析 絮 不 是 像 Boss 那 样 在 地 图 上 搜索 最 佳 
路 径 ， 而 是 从 符合 语法 规则 的 句子 里 众多 的 单词 中 寻找 最 好 的 方法 来 


创建 解析 树 。 现 代 解 机器 使 用 关于 单词 和 词性 之 间 关 系 的 统计 信息 来 
查找 最 有 可 能 的 解析 树 。 


你 可 能 还 记得 ， 在 你 上 学 的 时 候 ， 英 语句 子 可 以 分 解 成 主语 短语 
和 动词 短语 ， 而 且 每 一 种 短语 都 可 以 进一步 分 解 。 例 如 ， 动 词 短语 或 
名 词 短 语 可 以 分 解 为 两 部 分 : 


动词 短语 = 副词 + 动词 短语 
名 词 短语 = 形容 词 + 名 词 


我 们 可 以 继续 应 用 这 样 的 规则 ， 直 到 一 个 句子 被 分 解 成 小 块 ， 
个 小 块 都 古 单一 的 词性 。 一 些 句 子 分 析 避 束 是 利用 这 一 点 。 为 了 解析 
一 个 句子 ， 这 些 解 析 紫 使 用 这 些 规 则 来 寻找 拆 分 句子 的 最 佳 方法 ， 直 
到 不 能 把 句子 拆 分 成 更 多 的 小 块 为 止 。 


有 时 句子 会 产生 有 歧义 的 解析 树 。 以 下 是 传闻 中 出 现在 报纸 头条 
中 的 一 些 句 子 ，9 


Juvenile Court to Try Shooting Defendant. (NZH: D FEER 
枪击 被 告 人 。/ 少 年 法 庭 尝试 射 杀 被 告 人 。) 


Hospitals Are Sued by7Foot Doctors. (翻译 为 : 医院 被 7 名 足 部 医生 
起 诉 。/ 医 院 被 7 英尺 高 的 医生 起 诉 。) 


你 可 能 认为 这 些 例子 是 捏造 出 来 的 。 这 只 是 极 少 数 例外 ， 对 吗 ? 
实际 上 ， 这 种 模棱两可 的 情况 随时 都 可 能 发 生 。 它 们 总 古 潜伏 在 我 们 
语言 的 表面 之 下 ， 但 我 们 大 部 分 时 间 都 没有 注意 到 它们 ， 因 为 我 们 的 
头脑 很 快 瑟 能 解决 它们 的 疏 义 。 看 看 你 能 否 在 我 们 在 本 革 前 面 看 到 的 
一 条 线索 中 找到 歧义 : 


It’s the Bform of this inflammation of the liver that’s spread by some 
kinds of personal contact. (ANK: B 型 肝脏 炎症 是 通过 某 些 个 人 接触 
传播 的 。/B 型 炎症 的 肝脏 是 通过 某 些 个 人 接触 传播 的 。) 


在 这 条 线索 中 ， 歧 义 之 处 在 于 ， 是 炎症 通过 某 些 个 人 接触 传播 ， 
还 是 肝脏 通过 某 些 个 人 接触 传播 。 虽 然 对 我 们 人 类 而 言 很 明显 ， 肝 脏 
个 能 通 前 过 个 人 接触 传播 ， 但 这 对 于 “ 沃 森 ” 的 句子 解析 器 TODO 
显 。 这 种 解析 没有 任何 语法 错误 ， 即 便 它 在 语义 上 很 奇怪 


下 面 是 另 一 个 例子 ， 是 “ 沃 森 * 在 对 决 肯 : 詹 宁 斯 和 布 拉 德 : 鲁 特 时 遇 
到 的 。 


丹尼尔 : 册 斯 1959 年 的 短篇 小 说 ， 小 说 讲述 了 查理 : 戈 登 和 一 只 比 普 
通 老鼠 更 聪明 的 实验 室 老 鼠 ， 获 得 了 雨 采 奖 。 


FIAT BIET F, GNU RBYET . ei SE A CREE Dg 
eg muc (正确 的 分 析 ) ， 还 
是 查理 . 戈 登 的 短篇 小 说 和 一 只 比 普通 老鼠 聪明 的 实验 室 老鼠 都 获得 了 
WARK ° us us ^) 第 二 种 解析 
没有 任何 语法 或 语义 上 的 错误 ， 但 是 pee: WL AE S 
NAKER 会 磊 给 聪明 的 老鼠 。 顺 便 提 一 下 ,“ 沃 森 ” 正 确 地 给 出 了 
这 条 线索 的 答案 《 献 给 阿尔 吉 依 的 花束 》 。 


计算 机 无 法 确定 上 述 语 句 的 哪个 解析 树 古 正确 的 ， 除 非 有 更 多 相 
天 情况 的 上 下 文 ; 正如 我 先前 提 到 的 ， 现 代 解 析 右 使 用 的 统计 数据 是 
天 于 单词 、 词 性 以 及 它们 组 合成 句子 的 方式 的 。 通 稼 ， 这 些 足 以 使 计 
算 机 找到 正确 的 解析 树 。 

尽管 “ 沃 森 ” 可 以 创建 这 些 句 型 图 ， 但 它 仍然 不 知道 句子 的 意思 。 


对 “ 沃 森 ”而 言 ， 这 些 句 型 图 不 过 是 在 计算 机 内 存 中 流动 的 数据 结构 ， 
其 中 一 些 还 指向 其 他 数据 结构 。 往 运 的 是 ,，“ 沃 森 ” 不 需要 理解 这 些 句 


型 图 。 句 型 图 仅仅 是 程序 员 用 来 解释 问题 的 有 用 工具 。 但 程序 员 如 何 
能 在 不 看 问题 的 情况 下 解释 问题 呢 ? 


还 记得 自动 驾驶 汽车 的 大 富 分 棋盘 吗 ?大 富 分 棋盘 编码 了 人 们 在 
面 对 汽 车 可 能 遇 到 的 情况 时 所 需 的 知识 ， 比 如 交通 卡 口 处 的 优先 规 
则 。 就 像 Boss 的 创建 者 手工 制定 规则 让 它 在 研究 人 员 不 在 的 时 候 穿越 
拥挤 的 十 字 路 口 一 样 ，“ 沃 森 " 的 开发 者 也 手工 制定 了 规则 ， 这 样 ， 研 
究 人 员 不 在 的 时 候 ,“ 沃 森 "就 可 以 饥 览 它 的 句 型 图 ， 从 线索 中 提取 有 
意义 的 信息 


从 问题 分 析 阶 段 开始 ,“ 沃 森 " 使 用 这 些 规则 沿 着 DeepQA 流 程 检索 
解析 树 。 解 析 树 的 用 处 之 一 是 找到 线索 的 重点 。 记 住 ， 重 点 是 线索 中 
准确 抓 住 了 要 问 的 东西 的 词组 ， 比 如 这 个 人 或 这 种 炎症 。 为 了 找到 重 
上 护 ，“ 尖 森 ” 使 用 了 一 些 人 简单 的 规则 ， 比 如 搜索 由 “这 个 ”或 “这 些 ” 搬 述 
的 名 词 短语 。( 寺 x 沃 森 " 还 在 它 的 解析 树 中 寻找 其 他 信息 ， 包 括 是 否 有 
巾 入 其 他 线索 中 的 线索 ， 是 否 有 “或 ”这 样 的 连词 连接 成 对 的 线索 。“ 沃 
和 森 " 还 在 解析 树 中 搜索 与 线索 的 重点 有 头 的 关系 信息 。 


在 图 12.3 中 ， 你 可 以 看 到 “ 沃 森 ”如 何 分 析 那 条 关于 奥运 会 的 线 
索 。“ 沃 森 ” 使 用 许多 规则 系统 地 副 析 这 条 线索 ， 使 用 解析 树 作为 检查 
线索 的 镜头 。 在 问题 分 析 阶 段 ,“ 敖 森 ?” 仿 佛 一 个 患 有 强迫 证 的 组 织 
者 ， 仔 细 评 佑 它 在 句子 中 发 现 的 内 容 ， 并 将 一 些 信息 放 入 精心 标记 的 
方 框 中 。 但 它 仍 然 没 能 更 接近 线索 要 问 的 东西 。“ 沃 森 ” 漫 无 目的 地 处 
理 它 的 线索 ， 以 便 它 的 DeepQA 流 程 的 后 几 个 阶段 可 以 完成 它们 的 工 
fg » 


TRA SEBS SIC, ER Lica R: 它 仍然 面 


临 着 为 线索 找到 正确 答案 的 艰巨 任务 。 为 此 ， 它 使 用 了 一 些 你 可 能 会 
想到 的 典型 数据 源 : 字典 、 地 理 知 识 和 电影 数据 库 ， 甚 至 维基 百科 。 


但 是 ， 正 如 我 们 将 在 第 13 草 中 看 到 的 ,“ 沃 森 ” 使 用 它们 的 方式 和 人 类 
截然 不 同 。 


类 别 中 早期 
问题 的 信息 


线索 : 解析 树 


KAME- 查 维 奇 差点 
儿 破 坏 了 这 个 人 完美 的 从 


xg. 
2008 年 奥运 会 ， 仅 以 百 分 米 洛 拉 德 . 查 


维 a 2008 年 


之 一 秒 的 劣势 输 给 了 他 。 


All: 
奥运 奇闻 


得 维 奇 输 给 


图 12.3“ 沃 森 ” 在 问题 分 析 阶 段 从 线索 中 寻找 的 一 些 最 重要 的 信息 


1. ”除了 新 闻 组 档案 之 外 ， 这 些 例子 还 出 现在 卡 内 基 - 梅 隆 大 学 自然 语言 处 理 课 程 的 课 
堂 讲义 中 ， 本 书 难以 确认 这 些 故 事 出 自 何 处 。 


2. Lally et al.,“Question Analysis.” 
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地 下 室 基 准 


当 戴 维 . 费 鲁 奇 开始 规划 IBM 的 《危险 边缘 》 挑 战 之 路 时 ， 他 想 要 
一 些 证 据 来 证 明 这 个 项 目 不 会 太 难 。 正 如 《和 危险 边缘 总 决赛 》 的 作者 
斯 带 芬 .贝克 所 指出 的 那样 ，IBM 的 内 部 阻力 太 大 ， 如 果 没 有 成 功 的 机 
会 ， 那 么 投入 大 量 的 人 力 和 时 间 会 存在 商业 政治 风险 Se 
他 也 开始 担心 ， 造 一 台 计 算 机 来 玩 《危险 边缘 》 可 能 太 容易 了 。 如 果 
IBM 在 这 个 项 目 上 进行 了 多 年 的 研究 ， 并 在 营销 上 花费 了 数 百 万 美 
元 ， 结 果 却 被 一 个 在 地 下 室 里 工作 了 一 个 月 的 黑客 揭穿 了 真相 该 怎么 
办 ? 对 公司 而 言 ， 这 会 极为 难堪 ， 更 不 用 说 浪费 时 间 了 ° © 


费 鲁 奇 和 他 的 团队 提出 了 一 种 简单 的 测试 方法 ， 叫 “地 下 室 基 
准 ”。 当 费 鲁 奇 团 队 的 大 部 分 成 员 花 费 一 个 月 的 时 间 把 他 们 现 有 的 问答 
系统 改造 成 玩 《危险 边缘 》 的 系统 时 ， 费 鲁 奇 要 求 团队 中 最 热 囊 于 这 
项 工作 的 和 钴 姆 斯 法 恩 在 那个 月 里 独 目 在 他 二 楼 的 办 公 室 里 工作 ， 用 他 
能 找到 的 一 切 工具 拼 旋 出 一 个 系统 。 在 此 期 间 ， 除 了 号 午饭 和 开会 以 
外 ， 詹 姆 斯 :法 恩 不 与 团队 的 其 他 成 员 一 起 工作 。 相 反 ， 他 必须 想 出 目 
己 的 方法 。 然 后 ， 法 恩 的 系统 将 与 其 他 成 员 改 造 的 系统 进行 比赛 。 如 
果 人 詹姆斯 -法 恩 的 系统 表现 更 好 ， 那 么 费 鲁 奇 和 他 的 团队 就 需要 找到 解 
决 办 法 。( 因 如果 他 们 不 能 在 这 段 时 间 里 展示 出 足够 的 新 想法 ， 那 么 也 


会 证 明 这 个 问题 太 过 困难 。 


经 过 一 个 月 的 努力 ， 两 个 团队 一 一 常规 研究 团队 和 詹姆斯 :法 恩 一 
个 人 的 团队 ， 都 发 现 把 地 下 室 基 准 作为 基准 是 可 行 的 ， 地 下 室 基 准 在 
某 些 指标 上 几乎 与 改造 后 的 系统 一 样 好 ， 但 它 玩 《危险 边缘 》 的 水 平 
仍然 无 法 接近 人 类 玩家 。 与 此 同时 ， 和 詹姆斯 :法 恩 在 工作 中 发 现 了 一 些 
有 潜力 的 想法 。( 因 团队 现在 有 证 据 表明 ， 他 们 的 问题 有 一 定 的 难度 ， 
这 让 人 松 了 口气 。 他 们 不 太 可 能 轻易 让 目 己 感到 难堪 ， 但 他 们 已 经 了 
解 到 ， 可 以 运用 一 些 优秀 的 老式 训 力 的 方法 ， 并 在 问题 上 投入 一 些 额 


外 的 人 力 来 改进 现 有 的 方法 È 


然而 ， 正 如 我 们 在 上 一 章 中 看 到 的 ， 他 们 面临 着 另 一 个 问题 ， 他 
们 改造 过 的 玩 《危险 边缘 》 的 系统 仍然 没有 达到 打败 人 类 玩家 所 需要 
的 水 平 。 全 他们 没有 试图 优化 现 有 的 系统 ， 而 是 抛弃 了 原来 的 假设 ， 
从 零 开 始 。 经 过 数 月 的 实验 ， 他 们 把 注意 力 集中 到 了 一 个 名 为 DeepQA 
的 系统 上 。 


他 们 的 DeepQA 系 统 从 我 们 在 上 一 章 看 到 的 问题 分 析 阶 段 开 始 。 问 
题 分 析 阶 段 的 目标 古 从 线索 中 提取 最 突出 的 信息 ， 找 到 其 中 提 到 的 人 
物 、 地 点 和 事物 ， 再 找到 线索 所 寻找 的 管 案 类 型 ， 仔 细 标 记 这 些 信 
轧 ， 并 将 其 打包 以 供 流程 的 后 续 阶 段 使 用 。 我 们 将 在 本 章 中 介绍 
DeepQA 的 其 余 阶段 ， 这 些 阶段 使 沃 森 能 够 找到 正确 答案 。 


“ 沃 森 ?寻找 答案 的 方法 与 人 类 截然 不 同 。 人 类 可 能 会 对 问题 进行 
思考 ， 选 择 一 个 最 合适 的 答案 来 源 ， 然 后 在 那个 来 源 中 得 找 答案 。 人 
类 如 果 找 不 到 答案 ， 就 可 能 会 在 第 二 合适 的 来 源 中 寻找 答案 ， 如 果 在 
寻找 的 过 程 中 发 现 了 有 和 硕 望 的 线索 ， 束 可 能 调整 研究 路 径 。 一 旦 人 类 
找到 了 答案 (很 可 能 来 自 单一 来 源 ) ， 就 会 合 上 书 ， 目 信 地 回答 问 


题 。 


然而 ,“ 沃 森 ” 把 每 个 问题 都 视 为 一 个 庞大 的 研究 项 目 。 这 个 过 程 
很 像 招 聘 一 个 合适 的 人 来 填补 空缺 职位 。 第 一 步 涉 及 创建 详细 的 职位 


fa, Ce Bel EE- -HE SUI RAR” HY) TT E ^ GER" TE 
成 职位 描述 之 后 ， 束 会 从 无 数 来 源 处 搜集 数 以 百 计 的 求职 者 简历 ， 通 
过 “面试 ”对 其 中 许多 求职 着 进行 详细 调查 ， 然 后 仔细 权衡 每 个 人 的 优 
2 ee 。( 因 让 我 们 从 寻找 和 评估 候选 人 的 

， 即 “ 沃 森 ” 列 出 候选 人 名 单 的 方式 ， 开 始 探 讨 ,，“ 沃 森 ” 的 创造 
Bo 案 阶 段 。 
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生成 候选 答案 


为 了 填补 职位 至 缺 ， 你 在 这 个 阶段 的 第 一 步 征 搜 集 可 能 对 这 份 工 
作 感 兴趣 的 人 的 简历 。 你 的 目标 不 是 选择 合适 的 人 ， 而 是 列 出 所 有 你 
应 该 考虑 雇用 的 人 的 名 单 。 你 可 能 会 在 很 多 地 方 找到 这 些 人 。 你 可 以 
在 求职 搜索 引擎 上 发 布 这 份 工作 ， 也 可 以 联系 你 的 职业 网 络 中 的 一 些 
人 ， 还 可 以 在 你 公司 的 网 站 上 发 布 这 个 职位 空缺 ， 甚 至 可 以 在 本 地 分 
类 广告 上 登 个 广告 。 过 一 段 时 间 ， 你 束 会 搜 到 一 大 堆 求职 者 简历 。 


“ 沃 森 ” 使 用 同样 的 方法 创建 候选 管 案 列 表 。“ 沃 森 ” 的 目标 不 是 选 
择 正 确 答案 ， 而 是 搜集 可 能 的 候选 答案 。 但 “ 沃 森 ”的 问题 比 招聘 问题 
SRF: 与 填补 职位 空缺 不 同 ， 适 合 某 个 职位 的 申请 人 可 能 不 止 一 
个 ， 而 《危险 边缘 》 的 线索 只 有 一 个 正确 答案 。 如 采 在 这 个 阶段 结束 
时 ， 正 确 答案 不 在 “ 沃 森 ”的 候选 答案 中 ， 那 么 * 沃 森 ? 融 没有 机 会 正确 
回答 了 。 因 此 ,，“ 沃 森 ” 把 某 个 答案 看 作 候 选 答 双 的 标准 很 低 。 


具体 而 言 ， 让 我 们 以 上 一 章 看 到 的 那 条 关于 2008 年 奥运 会 的 线索 
为 例 ， 看 看 “ 沃 森 ”如 何 找 到 它 的 候选 答案 。 下 面 再 重复 一 人 裔 那 条 线 
BR: 
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百 分 之 一 秒 的 劣势 得 给 了 他 。 


在 上 一 间接 述 的 问题 分 析 阶 段 ,，“ 沃 森 ” 会 发 现 一 些 天 于 线索 的 东 
西 ， 在 图 12.3 中 ， 我 们 看 到 “ 沃 森 ”会 在 线索 中 识别 出 专 有 名 词 “ 米 洛 拉 
德 : 查 维 奇 "和 “2008 年 奥运 会 "， 它 会 找到 重点 “这 个 人 ”， 并 且 会 找到 管 
案 类 型 “人 ”。 有 了 这 些 关 于 线索 的 信息 ,“ 沃 森 ” 便 可 以 开始 寻找 候选 


EGET 


“ 沃 森 ”到 处 寻找 候选 答案 ， 包括 搜索 新 闻 文 章 和 日 科 金 书 义 章 à 
它 的 一 些 候选 数据 来 源 于 它 的 结构 化 数据 源 ， 这 些 数据 源 大 多 是 具有 
不 同类 型 关系 的 列表 (还 记得 吗 ， 关 系 是 人 物 、 地 点 和 事物 之 间 的 联 
f) 。 作 为 一 个 粗略 的 经 验 法 则 ， 你 可 以 假设 “ 沃 木 ” 知 道 的 关系 是 你 
poca A ul sl dig" BOA Oian, 
2010 年 ， 维 基 百 科 的 网 页 上 关于 “ 米 洛 拉 德 : 查 维 奇 "和 “2008 年 奥运 
会 "的 信息 框 包括 了 碍 维 奇 的 国籍 是 塞尔维亚 的 信息 ， 以 及 2008 年 奥运 
会 在 北京 举行 的 信息 。 因 此 ,“ 沃 森 ” 会 在 候选 答案 列表 中 添加 上 “ 塞 尔 
维 亚 ”和 “北京 "， 连 同 其 他 一 些 与 这 两 个 词 相关 的 论据 。 Se 
你 可 以 从 这 些 关 系 中 看 到 我 为 这 条 线索 找到 的 一 些 候 选 


表 13.1 
候选 答案 来 源 候选 答案 


塞尔维亚 ( 查 维 奇 的 国籍 ) 

6 尺 6 寸 ( 查 维 奇 的 身高 ,， 约 合 2 米 ) 
215 磅 ( 查 维 奇 的 体重 ， 约 合 97 Am) 
蝶泳 、 自 由 泳 ( 查 维 奇 的 泳 姿 ) 

加 州 大 学 伯克利 分 校 ( 查 维 奇 的 大 学 ) 
北京 (2008 年 奥运 会 主办 城市 ) 

北京 国家 体育 场 ( 2008 年 奥运 会 场馆 ) 
8 月 8 日 (2008 年 奥运 会 开幕 日 期 ) 

8 H 24 H (2008 年 奥运 会 闭幕 日 期 ) 
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inii . 查 维 奇 ”和 

“2008 年 奥运 会 ”相关 的 
关系 


格 罗 巴里 (标题 ) 

拉 斐 尔 ， PRS a 链接 文本 ) 

皮特 尔 © - 霍 根 班 德 〈 标题 ) 

p ines: ( 标题 ) 

米 洛 拉 德 . 查 维 奇 ( 标题 ) 

2012 年 夏季 奥运 会 游泳 〈 标题 ) 

2008 年 夏季 奥运 会 创造 的 世界 纪录 和 奥运 纪录 (标题 ) 


来 自 维基 百科 的 候选 答 
案 : 搜索 结果 中 的 文章 标 
题 、 重 定向 到 这 些 文章 的 
文章 、 文 章 之 间 的 超 链接 
文本 , 以 及 这 些 结果 链接 
到 的 网 页 的 标题 


候选 答案 来 源 


候选 答案 


迈克 尔 : 菲 尔 普 斯 ( 标题 、 链 接 文本 ) 

勒 . 克 洛 斯 ( 标题 ) 

叶 夫 根 尼 : 科 罗 特 什 金 ( 标题 ) 

北京 奥运 会 ( 链接 文本 ) 

100 米 蝶泳 世界 纪录 ( 链接 文本 ) 

投票 ( 链接 文本 ) 

TER : 博 尔 特 (链接 文本 ) 

2008 年 夏季 奥运 会 (标题 ) 

2008 年 奥运 会 ( 重 定向 到 搜索 结果 的 页 面 ) 


正如 我 在 上 一 章 中 提 到 的 ， 关 系数 据 库 仅 适用 于 一 小 部 分 线索 。 
这 条 线索 也 不 例外 : 虽然 “ 沃 森 ”还 不 知道 这 一 点 ， 但 我 们 从 这 些 结构 
化 数据 库 中 找到 的 候选 答案 都 没有 给 出 正确 答案 。 不 过 没关系 。 请 记 
住 ,“ 沃 森 ” 在 流程 的 这 个 阶段 不 需要 选 出 正确 管 案 。 它 只 需要 确保 正 


确 答 案 在 列表 中 即 可 。 


这 就 是 “ 沃 森 ”在 很 多 地 方 寻找 候选 答案 的 原 


1. 事实 上 ， 这 些 信息 杠 


是 沃 森 的 关系 来 源 之 一 ， 这 些 关系 是 “ 沃 森 ”使 用 的 数据 库 


DBpedia 的 一 部 分 。 


查找 答案 


“ 沃 森 * 继 续 在 其 庞大 的 非 结 构 化 数据 存储 以 及 百科 全 书 和 报纸 文 
章 、 维 基 百 科 页 面 、 文 学 作品 、 词典 和 主题 词 表 等 文档 中 查找 候选 答 
案 。 但 是 ,，“ 沃 森 * 如 何在 短 短 几 秒 钟 内 从 这 些 庞大 的 文档 中 找到 答案 
呢 ?“ 沃 森 * 的 做 法 与 你 在 大 量 文本 文档 中 找 答案 的 方式 一 样 ， 使 用 搜 
BGM o © 


因为 在 比赛 中 不 允许 访问 互联 网 ， 所 以 “ 沃 森 ” 不 能 人 简单 地 使 用 合 
歌 等 网 络 搜索 引 敬 。 因 此 ， 在 断 开 “ 沃 森 ” 的 网 络 连接 之 前 ， 人 研究 人 员 
搜集 了 “ 沃 森 ” 的 所 有 文档 ， 并 将 它们 加 载 到 目 己 的 目 定 义 搜索 引擎 
中 。 这 些 搜索 引擎 在 比赛 中 作为 “ 沃 森 ” 的 一 部 分 在 IBM 的 数据 中 心 运 
行 。 汪 从 < 沃 森 "的 角度 来 看 ， 这 些 搜索 引擎 与 你 使 用 的 网 络 搜索 引擎 
非常 相似 : 输入 一 个 搜索 查询 ， 然 后 得 到 一 个 搜索 结果 列表 。 舍 


“ 沃 森 ” 只 需要 提出 搜索 查询 整 可 以 使 用 这 些 搜 索引 擎 。 为 了 进行 
搜索 查询 ， 它 使 用 在 问题 分 析 阶 段 找到 的 线索 中 的 重要 单词 或 词组 ， 
并 且 在 查询 中 包含 了 答案 类 型 总统、 蔬菜 、 感 官 、 二 人 组 等 ) 。 如 
果 它 在 线索 中 找到 了 一 种 关系 ， 比 如 演员 饰演 的 关系 ， 它 就 会 给 支持 
线索 中 这 种 关系 的 论据 以 更 大 的 权重 。 当 你 在 谷歌 上 搜索 答案 时 ， 你 
可 能 有 了 时 会 伦 些 时 间 考 虑 要 在 搜索 查询 中 用 哪些 字 词 。“ 沃 森 ” 根 本 不 
著 虚 它 如 何 创建 查询 ， 它 只 是 用 它 在 问题 分 析 阶 段 发 现 的 信息 来 填写 
开发 人 员 创 建 的 简单 模板 中 的 空 日 。 


“ 沃 森 ”将 这 些 查 询 发 送 到 其 搜索 引擎 后 ， 就 会 从 搜索 结果 中 创建 
更 多 的 候选 答案 。 这 有 时 很 简单 ， 只 需 将 搜索 结果 的 标题 添加 为 候选 
答案 即 可 。( 轩 其 他 时 候 ，“ 沃 森 "使 用 了 更 微妙 的 把 戏 。 


其 中 一 个 把 戏 巧 妙 地 利用 了 维基 百科 的 文章 。 在 地 下 室 基准 测试 
里 拼凑 系统 的 那个 月 里 ， 人 詹姆斯 -法 恩 发 现 维基 百科 对 生成 候选 答案 非 
常 有 用 。 舍 在 对 维基 百科 做 了 更 多 的 研究 之 后 ， 研 究 团队 发 现 ，《 危 
险 边缘 》 节 目 中 竟 有 多 达 959% 的 答案 是 维基 百科 页 面 的 标题 | 


有 了 这 些 信 息 ， 团 队 便 将 维基 百科 作为 “ 沃 森 * 生 成 候选 答案 阶段 
的 基石 。 每 当 * 沃 森 ? 在 线索 的 搜索 结果 中 找到 一 段 维基 百科 内 容 时 ， 
它 都 会 通过 一 个 清单 过 滤 这 个 段落 ， 从 而 生成 候选 答案 。 首 先 ， 它 将 
该 段落 的 维基 百科 页 面 标题 添加 到 候选 答案 列表 中 。 然 后 ， 它 会 更 仔 
细 地 查看 段落 中 与 搜索 查询 匹配 的 部 分 ， 从 段落 中 的 超 链接 文本 (HU 
锚 文 本 ) 、 这 些 段 落 链 接 到 的 维基 百科 页 面 的 标题 ， 以 及 重 定向 到 这 
些 链接 的 维基 百科 页 面 的 标题 中 创建 候选 答案 o © 


“ 沃 和 森 ”的 研究 人 员 还 建立 了 一 份 维基 百科 所 有 页 面 标题 的 列表 ， 
这 样 他 们 就 可 以 在 其 他 地 方 查 找 这 些 短语 ， 无 论 它们 是 出 现在 其 他 来 
源 的 文档 中 〈 在 这 些 地方 它 们 可 能 成 为 候选 答案 ) ， 还 是 出 现在 “ 沃 
森 " 问 题 分 析 阶 段 的 线索 中 。( 思 这 就 是 为 什么 * 沃 森 " 知 道 “2008 年 奥运 
会 ”是 线索 中 的 一 个 专 有 名 词 : 维基 百科 上 也 有 一 个 题 为 “2008 年 奥运 
会 "的 页 面 5 


让 我 们 再 次 回顾 那 条 关于 2008 年 奥运 会 的 线索 ， 看 看 我 们 能 从 维 
基 百 科 的 这 些 把 戏 中 得 到 什么 候选 答案 。 对 于 这 条 线索 ， 我 创建 了 一 
个 “ 沃 森 * 可 能 会 提出 的 搜索 查询 ， 我 把 它 输 入 谷歌 ， 将 搜索 限制 为 只 
提供 来 自 维基 百科 的 结果 。( 辐 还 记得 吗 ，“ 沃 森 " 不 能 使 用 谷歌 ， 因 为 
它 被 切断 了 互联 网 ， 但 它 自 定义 的 搜索 引擎 的 功能 大 致 相同 ， 维 基 百 
科 是 “ 沃 森 ” 的 研究 人 员 编程 到 * 沃 森 " 搜 索引 擎 的 内 容 来 源 之 一 。 如 果 
我 们 浏览 这 些 搜索 结果 ， 遵 循 < 沃 森 " 按 照 维基 百科 列 清单 的 方式 ， 即 
根据 页 面 标题 、 网 络 链接 等 添加 文本 ， 那 么 我 们 便 会 找到 更 多 的 候选 
答案 ， 例 如 ， 拉 斐 尔 . 穆 尼 奥 斯 、2012 年 夏季 奥运 会 游泳 选手 皮特 尔 . 范 
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及 更 多 内 容 。 


这 些 候选 答案 看 起 来 已 经 好 多 了 ! 这 在 一 定 程度 上 是 因为 现在 至 
少 有 一 些 符合 线索 的 答案 类 型 (A) HMT BEIRT, ARH 
不 知道 这 些 答 案 更 有 可 能 是 正确 的 。 其 实 ， 当 我 搜集 这 些 候选 答案 来 
写 这 一 章 时 ， 我 已 经 找到 了 正确 答案 ， 并 且 有 充分 的 证 据 文 持 这 个 答 
案 。 尽 管 “ 沃 森 * 在 生成 候选 答案 的 时 候 会 发 现 这 个 证 据 ， 但 它 后 来 才 
检查 是 否 找 到 了 正确 答案 。 它 只 是 继续 搜索 ， 查 找 越 来 越 多 的 来 源 ， 
编制 它 那 庞大 的 候选 名 单 。 
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7. Chu-Carroll et al.,“Finding Needles in the Haystack.” 根 据 搜 索引 警 的 不 同 , “RAR? A 
时 会 得 到 一 个 段落 列表 ， 而 不 是 文档 列表 。 维 基 百 科 通 常 就 是 这 样 。 
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9. ”我 们 可 以 在 维基 百科 网 站 上 搜索 “ 米 洛 拉 德 查 维 奇 差点 儿 和 破坏 了 这 个 人 完美 的 2008 
FE 奥运 会 ， 仪 以 百 分 之 一 秒 的 劣势 输 给 了 他 ”"， 查 询 相关 信息 。 
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选 答案 进行 更 深入 的 分 析 ， 以 确定 哪 一 个 是 正确 的 。“ 沃 森 ” 需 要 投入 
相当 大 的 努力 来 研究 每 个 候选 答案 ， 这 种 工作 量 大 到 让 它 无 法 对 所 有 
候选 答 有 进行 妍 究 ， 所 以 它 使 用 轻 量 级 过 滤 名 将 列表 缩小 到 一 个 较 小 
的 集合 。 


在 寻找 填补 空缺 职位 的 人 选 时 ， 你 也 会 这 样 做 。 你 得 到 一 堆 人 简历 
之 后 ， 下 一 步 吏 是 对 求职 者 进行 更 深入 的 分 机 ， 也 殉 是 说 ， 你 会 邀请 
他 们 中 的 一 些 人 到 现场 面试 。 然 而 ， 如 有 果 你 只 招聘 一 个 职位 ， 却 有 几 
百 份 申请 ， 你 没有 足够 的 时 间 面 试 所 有 求职 者 。 此 时 你 可 以 使 用 轻 量 
级 过 滤 絮 来 缩小 简历 范围 ， 例 如 ， 泗 掉 没 有 大 学 学 历 和 缺乏 职位 相关 
经 验 的 求职 者， 然后 邀请 少数 候选 人 参加 现场 面试 。 因 为 你 有 很 多 简 
历 要 和 审阅， 所 以 这 个 过 滤器 必须 很 位 单 。 


“ 沃 森 * 的 轻 量 级 过 滤器 也 非常 简单 ， 它 可 以 测试 候选 答案 是 否 与 
答案 类 型 (例如 ， 总 统 、 城 市 、 人 ) 相 匹 配 。( 央 2008 年 奥运 会 那 条 线 
索 的 答案 类 型 是 人 ， 所 以 我 们 可 以 假设 “ 沃 森 ”将 线索 的 候选 答案 缩小 
到 了 人 名 范围 。 所 有 通过 轻 量 级 筛选 的 候选 答案 都 会 进入 证 据 检 索 阶 
段 ， 这 样 “ 沃 森 "就 可 以 花 更 多 的 时 间 搜 集 每 个 候选 答案 的 信息 。 乌 


1. Ferrucci et al.,“Building Watson.” 


2. 这 一 阶段 的 正式 名 称 为 “证 据 检索 阶段 ”>。Baker“Blue JIs Born.” 


证 据 检 索 


证 据 检 索 阶 段 类 似 于 现场 面试 。 虽 然 你 可 能 只 面试 几 名 求职 
但 < 沃 森 ? 会 仔细 研究 大 约 100 个 候选 答案 。( 司 为 了 做 到 这 一 点 ，* 沃 
森 " 再 次 求助 于 它 的 数据 库 和 搜索 引擎 。 


如 条 现场 面试 一 位 求职 者， 你 可 能 不 会 通过 逐条 浏 响 个 人 描述 来 
了 解 这 位 求职 者 。 你 会 根据 个 人 育 景 和 职位 空缺 的 具体 情况 回 候 选 人 
提出 问题 ， 布 望 找 到 候选 人 胜任 这 份 工作 的 独特 方式 。“ 沃 森 ” 在 研究 
候选 答 滩 时 也 做 了 同样 的 事情 。 它 制定 出 具体 的 与 候 移 答案 和 线索 相 
天 的 问题 ， 即 搜索 查询 。 又 一 次 ， 它 求助 于 它 的 结构 化 和 非 结构 化 数 
据 产 来 进行 这 项 研究 。 

“ 沃 森 ” 将 线索 中 的 重要 词语 和 短语 与 候选 答案 结合 起 来 ， 将 候选 
答案 视 为 必 填 短语 ， 从 而 创建 出 搜索 得 询 。 如 采 我 们 用 谷歌 搜索 来 得 
询 的 话 ， 下 面 就 是 针对 2008 年 奥运 会 线索 的 可 能 的 查询 。 


拉 斐 尔 . 穆 尼 奥 斯 ， 米 洛 拉 德 . 查 维 奇 “破坏 "2008 年 奥运 会 ， 百 分 之 
一 秒 的 劣势 。 


25 
然后 , “ 沃 森 ? 回 它 的 搜索 引擎 提出 这 样 的 查询 ， 如 图 13.1 所 示 ， 
这 样 它 瑟 可 以 根据 候选 答案 和 线索 来 搜集 证 据 。 


拉 斐 尔 ' 穆 尼 奥 斯 
皮特 尔 . Ha + 登 
博 尔 特 


亚历山大 - 多 德 维 奇 
| 米 洛 拉 德 . 查 维 奇 
I 

3r 


迈克 尔 - 菲 尔 普 斯 
勒 : 克 洛 斯 
菲 尔 普 


尤 塞 恩 : 博 尔 特 


候选 答案 过 滤 后 的 答案 


图 13.1“ 沃 森 " 的 证 据 检 索 阶 段 。* 沃 森 ” 首 先 使 用 轻 量 级 过 滤器 筛选 候选 答案 ， 然 后 从 它 的 数 
据 库 和 搜索 引擎 中 为 剩 下 的 每 个 候选 答案 搜集 大 量 证 据 


在 研究 过 程 中 , “ 沃 森 ?搜集 了 大 量 证 据 来 文 持 每 一 个 候选 答案 ; 
这 些 证 据 的 大 部 分 只 是 其 搜索 结果 中 的 部 分 文字 片段 。 从 维基 百科 的 
搜索 结果 来 看 ， 候 选 答案 “ 拉 斐 尔 ' 称 尼 奥 斯 ” 并 不 像 是 正确 答案 : 第 一 
个 搜索 结 采 是 关于 2008 年 奥运 会 游泳 比赛 的 页 面 ， 其 中 只 在 一 张 表 格 
中 提 到 了 拉 辈 尔 ' 物 尼 奥 斯 和 他 的 一 次 洲 沪 成绩。 顺便 说 一 句 ， 事 实证 


A, ERER (不 是 拉 斐 尔 - 称 尼 奥 斯 ) 的 证 据 实 际 上 在 这 个 页 面 的 其 
他 地 方 ， 但 同样 ，“ 沃 森 ” 不 会 知道 这 一 点 ， 因 为 它 遵循 指定 的 规则 ， 
而 这 些 规 则 中 没有 一 条 证 它 去 看 这 个 页 面 的 那 一 部 分 。 关 于 “ 拉 裴 尔 ， 
称 尼 奥 斯 * 的 其 他 搜索 结果 也 同样 又 无 用 处 。 


当然 ,，“ 沃 森 ” 在 研究 完 它 的 第 一 个 候选 答案 之 后 并 没有 集 止 。 它 
会 仔细 人 研究 所 有 通过 它 的 轻 量 级 过 滤 紫 的 候选 答案 。 让 我 们 用 男 一 个 
候选 答案 来 答 试 这 个 证 据 检 索 : 皮特 尔 : 范 ' 登 霍 根 班 德 。 这 个 查询 的 
搜索 结果 稍 好 一 些 ， 但 仍然 不 完美 。 其 中 一 个 结 打 是 霍 根 班 德 的 维基 
百科 页 面 ， 其 中 包含 这 样 一 个 段落 。 


2008 年 北京 奥运 会 ， 他 重 返 赛场 ， 在 100 米 目 由 六 比赛 中 获得 第 五 
名 0 


这 句 话 匹配 了 2008 年 、 奥 运 会 和 100 (很 像 百 分 之 一 ) ， 但 除 此 之 
外 都 不 太 匹 配 。 这 个 候选 答案 其 余 的 搜索 结果 也 令 人 失望 。 让 我 们 试 
试 最 后 一 个 候选 答案 : 迈克尔 : 非 尔 普 斯 。 第 一 个 搜索 结果 是 2008 年 奥 
运 会 游 注 的 维基 百科 页 面 ， 包 含 这 样 一 个 段落 。 


美国 游泳 运动 员 迈 克 尔 - 菲 尔 普 斯 以 50.58 秒 的 成 绩 打 破 奥运 纪录 
捍卫 了 自己 的 冠军 头衔， 以 百 分 之 一 秒 (0018) 的 优势 力 压 塞 尔 维 
亚 选手 米 洛 拉 德 . 查 维 奇 (50.59 秒 ) 0° 


啊 哈 ! 这 个 搜索 结果 看 起 来 更 有 希望 。 男 一 个 搜索 结果 中 也 出 现 
了 类 似 的 段落 ， 是 维基 百科 中 迈克 尔 - 菲 尔 普 斯 的 页 面 。 


8 月 16 日 ， 菲 尔 普 斯 在 男子 100 米 蝶泳 比赛 中 获得 了 个 人 第 七 枚 金 
脾 ， 以 50.58 秒 的 成 绩 打 破 了 奥运 纪录 ， 并 以 百 分 之 一 秒 的 优势 力 压 最 
强劲 的 竞争 对 手 查 维 奇 。 人 由 
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种 方法 在 证 据 检索 阶段 似乎 很 有 潜力 。 


维基 百科 并 不 是 “ 沃 森 "在 证 据 检索 阶段 使 用 的 唯一 资源 ， 正 如 我 
前 文 提 到 的 ，“ 活 森 * 使 用 了 各 种 各 样 的 资源 ， 包 括 字典 、 主 题词 表 、 
百科 全 书 、 新 闻 档案 和 关系 表 ， 比 如 逝世 日 期 "和 “国家 首都 "。* 沃 
森 "的 创建 者 确保 “ 沃 森 " 对 不 同 资源 的 查询 是 经 过 适当 定制 的 。* 沃 
森 "根据 从 问题 分 析 阶段 了 解 到 的 线索 和 正在 研究 的 候选 答案 为 每 个 相 
关 资 源 创建 查询 ， 有 时 还 会 使 用 线索 的 解析 树 的 信息 。 然后 它 存储 搜 
索 结果 以 供 后 续 使 用 。 


当 我 们 发 现 这 段 话 上 暗示“ 迈 元 尔 : 菲 尔 普 斯 "是 线索 的 正确 答案 时 ， 

我 们 将 很 满意 目 己 已 经 找到 了 答案 ， 并 且 知 道 可 以 停止 寻找 了 。 但 “ 活 
和 森 " 不 会 像 人 类 那样 停止 研究 ， 因 为 它 还 没有 符 试 去 理解 它 正 在 搜集 的 
证 据 。 直 到 下 一 阶段 ， 它 才 开 始 对 候选 答案 进行 评判 ， 此 时 它 会 对 证 
据 进 行 评分 。 在 “ 沃 森 ”看 来 ， 文 挂 迈克 尔 - 菲 尔 普 斯 的 证 据 并 不 比 支 持 
皮特 尔 : 范 ' 登 . 霍 根 班 德 的 证 据 更 有 力 ; 每 个 候选 答案 的 证 据 都 只 是 计 
算 机 内 存 中 某 个 地 方 的 一 段 文字 ， 类 似 于 面试 官 面 斌 求职 者 时 做 的 笔 
记 。* 沃 森 ” 只 是 继续 它 的 研究 ， 搜 集 一 段 叉 一 段 的 证 据 ， 以 文 持 其 余 
候选 答案 。 当 “ 添 森 "最终 完成 对 候选 答案 的 面试 时 ， 它 便 准 备 好 了 或 
许 是 最 有 趣 的 部 分 : 对 每 一 个 候选 答案 进行 评分 。 


1. Ferrucci et al.,“Building Watson.” 

2. Wikipedia, “Swimming at the2008Summer Olympics,”accessed 
May7,2017,https://en.wikipedia.org/wiki/Swimming_at_the_2008_Summer_Olympics_%E2% 
80%93_Men%27s_100_metre_butterfly. 


3. Wikipedia, “Michael Phelps,” accessed 
May7,2017,https://en.wikipedia.org/wiki/Michael Phelps. 


评分 


在 搜集 了 文 持 每 个 候选 答 采 的 证 据 后 ,“ 沃 森 ” 将 结果 传递 给 一 组 
评分 算法 。 束 像 “ 沃 森 ” 使 用 多 种 规则 来 分 析 它 的 问题 一 样 ， 它 的 评分 
阶段 也 使 用 多 种 规则 来 分 析 每 个 候选 答案 的 证 据 。 


这 些 评分 右 做 了 沃 森 的 绝 大 部 分 “有 趣 ” 的 工作 :它们 估计 了 每 个 
候选 答案 的 每 个 证 据 与 线索 的 匹配 程度 。 


这 个 阶段 类 似 于 创建 一 个 巨大 的 电子 表格 来 评 们 每 个 求职 者 。 为 
了 评 信 求 职 者 的 每 一 项 信息 ， 你 可 以 使 用 几 个 不 同 的 标准 :这些 信 息 
苹 否 显示 出 民 好 的 沟通 能 力 、 相 关 工 作 经 验 、 文 化 契合 度 ， 以 及 做 事 
情 的 紧迫 感 。 在 这 个 评分 阶段 ， 你 的 目标 不 是 评估 候选 人 本 号 ， 而 是 
评估 候选 人 对 你 提出 的 问题 的 答复 ， 需 要 尽量 保持 客观 。 这 意味 着 你 
可 能 需要 为 每 个 候选 人 的 许多 信息 分 别 评分 。 然 后 ， 你 会 在 后 续 阶 段 
提取 电子 表格 的 结果 并 做 最 终 决 定 ， 忠 像 “ 沃 森 ” 要 等 到 下 一 阶段 才 会 
为 每 一 个 证 据 评 分 一 样 。 


“ 沃 森 ” 使 用 了 许多 评分 器 评估 证 据 ， 但 每 个 评分 器 往往 都 相当 简 
单 。 例 如 ， 一 个 评分 器 统计 线索 和 支持 段落 之 间 重 肥 单 词 的 数量 。 它 
用 一 种 名 为 "IDF* 的 方法 对 每 个 单词 进行 加 权 ， 这 种 方法 赋予 生僻 词 更 
大 的 权重 ， 以 此 充当 该 单词 所 传递 的 信息 量 的 代理 。 这 种 方法 背后 的 
直觉 是 ， 生 个 词 之 所 以 传递 更 多 信息 ， 人 恰恰 是 因为 它们 很 生 个: 如果 
线索 和 段落 共有 一 个 生僻 词 〈 比 如“ 查 维 奇 " 或 “蝎子 ") ， 那 么 这 个 词 
的 权重 应 该 比 它们 共有 的 常用 词 (比如 “几乎 "或 “一 个 *) NDA S OR 
照 这 个 标准 ， 候 选 答案 迈克 和 尔 . 菲 尔 普 斯 "必然 会 得 到 好 评 ， 因 为 许多 
支持 候选 答案 < 迈克尔. 菲 尔 普 斯 ”的 段落 和 线索 共用 生僻 词 ， 例 如 “ 查 


维 奇 *。 对 这 个 评分 器 而 言 ， 支 持 其 他 候选 答案 的 段落 不 会 有 这 么 好 的 
表现 。 


这 个 单词 重 县 评分 右 存 在 明显 的 弱点 ， 它 完全 忽略 了 文 持 段落 中 
的 单词 顺序 。 例 如 下 面 这 条 线索 : 


他 于 2003 年 6 月 采 府 中 国 国家 主席 。 


对 于 下 面 这 个 段落 ， 单 词 重 友 评分 器 会 给 出 很 高 的 评分 ， 尽 管 它 
暗示 的 答案 是 错误 的 ; 


美国 总 统 乔 治 . 布 什 曾 在 2003 年 6 月 盛 链 中 国 o 


很 明显 ， 这 个 评分 器 会 给 这 个 错误 的 段落 太 大 的 权重 ， 仅 仅 因为 
EIERE EZ] o 


A, SAR BE Dek — aR Po SE ^ EF 
分 器 试图 按 顺 序 对 齐 线索 和 段落 中 的 单词 ， 通 过 搜索 算法 找到 二 者 之 
间 的 对 齐 方 式 。 一 旦 对 齐 ， 匹 配 的 单词 会 让 评分 更 高 ， 而 不 匹配 或 缺 
失 的 单词 则 会 让 评分 更 低 。 和 以 前 一 样 ， 对 齐 评分 右 更 重视 生 售 词 ， 
它 更 喜欢 与 生 俱 词 匹配 的 对 齐 ， 而 不 是 与 常用 词 匹 配 的 对 齐 。 


IBM 的 研究 人 员 还 添加 了 一 个 性 别 评 分 器 ， 很 明显 ,“ 沃 和 森 ? 在 测 
试 中 看 到 下 面 这 条 线索 后 ， 束 会 发 现 这 个 评分 器 必 不 可 少 : 


1912 年 3 月 16 日 ， 第 一 夫人 特 尔 玛 : 凯 琴 琳 .瑞安 (Thelma Catherine 
Ryan) ERAMA © 


在 拥有 性 别 评分 器 之 前 ，“ 沃 森 ” 的 答案 是 “ 理 查 德 :尼克 松 ”。 (E 
确 答 案 是 尼克 松 的 妻子 特 尔 玛 - 册 瑟 琳 -瑞安 。) 


“ 活 森 "还 在 评分 器 中 使 用 了 解析 树 。 有 一 个 评分 器 类 似 于 单词 重 
芝 评 分 器 ， 但 它 不 是 统计 重 到 的 单词 ， 而 是 计算 在 线索 的 解析 树 中 相 
连 的 单词 在 支持 段落 的 解析 树 中 仍然 相连 的 频率 。( 固 另 一 个 评分 器 斌 
图 将 线索 的 解析 树 与 段落 的 解析 树 直接 对 齐 ; 如 果 对 齐 后 得 到 的 两 个 
解析 树 的 重点 与 候选 答案 匹配 ， 那 么 这 就 为 候选 答案 提供 了 强 有 力 的 
支持 。 


一 些 评分 器 检查 线索 和 文 持 段落 的 日 期 是 否 一 尾 ， 其 他 评分 器 检 
查 线索 和 段落 之 间 的 地 理 一 致 性 。“ 沃 和 森 ” 使 用 的 评分 硕 还 在 不 断 地 增 
M, AREL T YET as ^ ED CARA HE, SEMPUKXRUHORHU 
APRA RHE ESR CARS, fun] DO BAY Bone 
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个 候选 答案 最 好 的 意见 ， 尽 管 它 已 经 更 接近 这 一 步 了 。 此 时 ， 它 已 经 
列 出 了 文 持 候 选 答案 的 每 一 条 证 据 的 数字 评分 表 。*“ 沃 森 ” 最 终 将 在 它 
的 最 后 阶段 一 一 汇总 和 排名 阶段 ， 对 候选 答案 形成 目 己 的 意见 。 


1. J.William Murdock et al.,“Textual Evidence Gathering and Analysis,"IBM Journal of 
Research and Development56,no.3.4(2012). 


2: Julia Cort and Michael Bicks,Smartest Machine on Earth(PBS NOVA television 
episode),directed by Michael Bicks,produced by PBS NOVA,February2011. 


3. Murdock, “Textual Evidence Gathering and Analysis.” 


汇总 和 排名 


你 可 能 会 认为 ， 对 “ 沃 森 ”而 言 ， 要 选 出 最 佳 候选 管 案 ， 它 只 需 一 
个 简单 的 分 类 器 就 可 以 ， 避 ® 像 我 们 在 儿 和 鞋 食谱 的 例子 中 所 做 的 那样 ， 
或 者 束 像 人 工 神经 元 对 它 的 输入 所 做 的 那样 。 但 对 “ 沃 森 ” 而 言 ， 事 情 
并 没有 那么 简单 。“ 沃 森 ” 的 确 使 用 了 分 类 右 ， 但 它 需 要 先 把 证 据 评分 
表 转 换 成 正确 的 格式 。 还 记得 吗 ， 当 创建 电子 表格 来 评估 每 个 候选 答 
案 时 ， 我 们 可 能 有 很 多 证 据 文 持 其 中 一 些 候 选 答案 ， 因 此 这 些 候选 答 
案 的 评分 就 会 很 高 ， 而 有 些 候 移 管 案 只 有 很 少 证 据 或 没有 证 据 ， 因 此 
这 些 候选 答案 的 评分 吏 会 很 低 。 候 选 答案 列表 在 其 他 方面 也 很 不 实 
用 ， 例 如 其 中 可 能 会 有 重复 的 答案 等 。 


简 而 言 之 ， 这 个 电子 表格 还 没有 以 正确 的 形式 馈送 到 分 类 器 中 ， 
因为 “ 沃 森 * 要 分 类 的 东西 一 候选 答案 ， 是 多 样 化 的 。 加 权 平 均 分 类 
器 期 望 你 分 类 的 每 个 项 目 都 有 相同 的 特征 集 。 在 这 些 候选 答案 上 使 用 
分 类 器 就 像 尝试 用 一 个 方形 的 桦 头 对 圆 形 的 卯 眼 一 样 ， 完 全 不 会 起 作 
用 。 为 了 解决 这 个 问题 ，“ 沃 森 " 在 生成 最 终 答案 之 前 ， 使 用 了 7 个 独立 
的 变换 序列 ， 每 个 变换 序列 都 有 自己 的 分 类 器 。 全 你 可 以 在 图 13.2 中 
看 到 它 的 示意 图 。 


其 中 一 个 变换 序列 合并 了 重复 的 答案 。 在 我 们 的 奥运 会 例子 中 ， 
候选 答案 菲 尔 普 斯 和 返 克 尔 - 菲 尔 普 斯 一 样 ， 博 尔 特 和 尤 塞 恩 - 博 尔 特 一 
样 。 有 时 “ 沃 森 * 有 一 个 更 具体 的 管 案 版 本 和 一 个 不 太 具 体 的 答案 版 
本 ， 例 如 通用 的 “ 剑 ” 和 “亚瑟王 的 神 剑 ” (一 把 传说 中 的 剑 的 名 字 ) 
在 每 一 种 情况 下 ,“ 沃 森 * 都 将 这 些 重复 的 答案 合并 成 一 个 答案 ， 并 在 
这 个 过 程 中 把 支持 它们 的 证 据 结合 在 一 起 。 人 ) 
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的 评分 可 能 各 不 相同 。 因 此 ，7 个 变换 序列 中 的 另 一 个 以 对 评分 做 有 意 
义 的 方式 组 合 这 些 评分 。 对 于 每 个 候选 答案 ,“ 沃 条 ?到 一 些 评分 硕 的 
FDR, PET EY, mA TRDA, "DOR SCRE 
案 的 所 有 证 据 中 取 评 分 器 的 最 高 评分 。( 辐 然而 ,“ 沃 森 "的 排名 流程 中 
的 其 他 阶段 会 按 比 例 对 评分 进行 变换 或 填充 缺失 的 特征 值 ， 以 此 改变 


评分 。 


最 后 ， 一 个 善于 从 糟糕 的 候选 答案 中 挑 出 优秀 候选 答案 的 分 类 器 
可 能 并 不 善于 挑 出 最 优秀 的 候选 答案 。 因 此 ，“ 沃 森 * 流 程 中 的 一 个 变 
换 序列 使 用 了 一 个 分 类 器 来 过 滤 掉 最 差 的 候选 答案 ， 另 一 个 变换 序列 
选 出 5 个 相对 不 错 的 候选 答案 ， 然 后 又 有 一 个 变换 序列 从 这 5 个 候选 答 
案 中 选 出 最 佳 候选 答案 。 


图 13.2“ 沃 森 " 运 行 的 DeepQA 框 架 中 的 汇总 和 排名 阶段 。 这 一 阶段 由 7 个 变换 序列 组 成 ， 每 个 
一 个 汇总 步 又、 一 个 变换 和 过 滤 步 又 ， 以 及 一 个 线性 分 类 器 步骤 ， 它 对 不 同类 


型 的 问题 使 用 不 同 的 分 类 器 。7 个 变换 序列 中 的 每 一 个 都 是 独一无二 的 ， 因 为 它们 的 汇总 、 变 


变换 序列 都 有 


换 和 分 类 步骤 各 不 相同 《有 些 变换 甚至 跳 过 了 其 中 的 一 个 或 多 个 步骤 ) ， 但 框架 让 每 个 转换 


过 程 的 每 个 步骤 起 作用 


这 些 变 换 序列 最 终 操控 了 “ 沃 森 ”的 候选 答案 ， 直 到 它们 的 形式 有 
利于 应 用 位 单 的 分 类 器 ， 这 是 流程 的 最 后 阶段 。 这 些 变换 序列 前 去 了 
方形 桦 头 的 术 角 ， 使 之 军 过 圆 形 的 卯 眼 ， 这 样 “ 沃 森 ? 束 能 最 终 把 答案 
UNA Ree T° 
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于 ， 它 们 每 一 个 都 有 相同 的 结构 。 这 并 不 意味 着 它们 做 了 同样 的 事 
情 ， 正 如 我 们 刚刚 看 到 的 那样 ， 它 们 每 一 个 都 为 “ 沃 森 ”执行 了 不 同 的 
操作 。 但 “ 沃 森 ” 每 一 个 变换 序列 检测 数据 的 方式 是 相同 的 。 它 们 每 一 
个 都 由 三 个 基本 元 素 组 成 : 证 据 汇 总 步 又 ， 执 行 该 讨 竺 有 操作 的 处 理 
步骤 (比如 操作 特征 或 过 滤 候 选 答案 ) ， 以 及 为 下 一 阶段 候选 答案 重 
新 评分 的 分 类 步骤 。 在 某 种 程度 上 ， 这 个 7 层 结构 类 似 于 7 层 神 经 网 
络 ; 你 甚至 可 以 把 它 想 象 成 一 个 打 了 兴奋 剂 的 目 定义 神经 网 络 ， 在 这 
里 ， 神 经 元 层面 的 操作 比 简单 的 神经 元 更 具有 表现 力 ， 这 有 点 像 谷歌 
的 “ 盗 梦 空间 网 络 ”。( 思 每 一 层 的 前 两 个 步骤 对 候选 答案 进行 非 线性 变 
换 ， 第 三 个 步骤 一 一 分 类 步骤 ， 征 一 个 简单 的 线性 分 类 右 ， 后 面 是 我 
们 在 上 一 章 看 到 的 $ 型 曲线 。 这 些 变换 的 结果 束 是 “ 添 和 森 ”的 最 终 答 案 列 
表 ， 每 个 答案 都 有 一 个 置信 度 分 数 。*“ 沃 牺 ?选中 的 答案 是 这 个 列表 中 
得 分 最 高 的 候选 答案 。 


1. D.C.Gondek et al.,“A Framework for Merging and Ranking of Answers in 
DeepQA,"IBM Journal of Research and Development56,no.3.4(2012). 

2. Gondek et al.,“A Framework for Merging and Ranking of Answers in DeepQA." 

3. Gondek et al.,“A Framework for Merging and Ranking of Answers in DeepQA." ° 

4. Gondek et al.,“A Framework for Merging and Ranking of Answers in DeepQA." ° [A] 

样 ， 这 种 变换 使 用 了 机 器 学 习 和 统计 学 的 典型 技巧 。 例 如 ， 对 于 特征 “is_geo_match”， 

他 们 可 能 会 添加 一 个 名 为 “is_geo_match_present” 的 新 特征 ， 来 表示 第 一 个 特征 缺失 时 的 

情况 。 


5. 
6. 


詹姆斯 法 因 与 作者 的 私人 信件 。 


我 们 目前 还 不 清楚 这 是 否 可 以 正式 编码 为 神经 网 络 ， 需 要 添加 额外 的 层 来 处 理 


层 的 前 两 个 步骤 中 候选 答案 之 间 的 交互 。 


H 
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慢 且 难以 调整 。“ 沃 森 ” 的 早期 版 本 是 在 单个 CPU 上 运行 的 ， 它 回答 一 
个 问题 要 花费 两 个 小 时 。( 辐 幸运 的 是 ,“ 沃 森 " 的 设计 使 它 的 许多 阶段 
可 以 并 行 运行 。 例 如 ,“ 沃 和 森 ? 并 不 是 逐个 研究 每 个 候选 答案 ， 而 是 通 
过 把 工作 分 配给 许多 CPU， 同 时 人 研究 所 有 候选 答案 。 通 过 让 * 沃 森 ? 并 
行 工 作 ， 并 将 其 工作 分 配 到 大 约 2880 个 处 理 器 上 ， 费 鲁 奇 的 团队 将 “ 沃 
和 森 ” 回 答 一 个 问题 的 时 间 缩 短 到 5 秒 以 内 ， 而 且 其 速度 快 到 足以 击败 入 
THAE ° 
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庞大 的 软件 项 目 ， 需 要 协调 庞大 的 研究 团队 ， 用 大 约 25 名 研究 人 员工 
作 长 达 4 年 。( 沁 改动 不 能 擅自 进行 。 如 果 一 名 研究 人 员 改 进 了 他 那 部 
分 系统 ， 那 么 他 的 改动 可 能 会 在 其 他 地 方 引发 意 想不到 的 问题 。 为 了 
设计 和 调整 像 “ 沃 森 ” 这 样 的 复杂 机 絮 ， 费 和 鲁 奇 和 他 的 团队 广泛 地 使 用 
实验 法 和 端 到 端 指标 。 他 们 仔细 衡量 了 他 们 所 做 的 每 一 个 改变 ， 并 
对 “ 沃 森 ?进行 了 “边际 ?分 析 ， 以 衡量 如 采 他 们 增加 或 删除 一 个 评分 
ae, AR ZS OA, 或 者 如 采 他 们 只 用 一 个 评分 器,，“ 沃 森 ” 的 
表现 会 如 何 。 目 始 至 终 ， 他 们 都 在 密切 关注 “ 沃 森 ?在 “优胜 者 云 ? 中 的 
ie, “优胜 者 云 ? 即 我 们 在 上 一 章 中 说 到 的 散 点 图 ， 它 总 结 了 《危险 
边缘 》 人 类 冠军 在 不 同 的 目 信 水 平 下 回答 问题 的 准确 程度 。 


1. Ferrucci et al.,“Building Watson.” 


2. Ferrucci et al.,“Building Watson.” 


重新 审视 DeepQA 


“ 沃 森 "究竟 有 什么 特别 之 处 ， 让 它 能 够 在 《危险 边缘 》 比 赛 中 击 
败 人 类 竞争 对 手 ， 而 且 当 时 还 没有 其 他 系统 能 与 它 匹敌 ?“ 沃 森 " 与 先 
前 系统 的 不 同 之 处 主要 在 于 其 庞大 的 规模 和 对 DeepQA 的 使 用 。 到 目前 
为 止 ， 我 一 直 在 谈论 * 沃 森 ") 和 DeepQA， 就 好 像 它们 是 一 回 事 ， 但 它们 
在 技术 上 还 是 有 些 不 同 的 。DeepQA 是 一 个 数据 处 理 引 警 ， 而 * 沃 
de —— ”至少 是 那个 我 在 前 两 章 谈 到 的 玩 《 危 险 边缘 》 的 程序 ， 是 建立 
在 DeepQA 基 础 之 上 的 。DeepQA 是 一 个 更 通用 的 引擎 ， 可 以 用 于 其 他 
用 途 ，IBM 已 经 在 医学 和 游戏 等 各 种 应 用 中 对 它 进行 了 测试 。 费 鲁 奇 
和 他 的 团队 发 现 ， 当 他 们 将 DeepQA 应 用 到 他 们 在 《危险 边缘 》 之 前 参 
与 的 一 个 问答 比赛 时 ， 它 的 表现 要 优 于 他 们 为 那个 比赛 专门 构建 的 系 
统 。( 洁 与 此 同时 ， 相 反 的 情况 却 并 非 如 此 : 当 试 图 在 第 一 个 月 的 工作 
中 采用 更 老 的 、 专 门 针对 比赛 的 系统 来 玩 《 危 险 边 缘 》 时 ， 他 们 却 遭 
遇 了 惨败 。 


DeepQA 与 深度 学 习 无 天。DeepQA 中 的 “Deep” 指 的 是 深度 目 然 语 
言 处 理 或 深度 问答 ， 它 是 IBM 用 来 将 其 与 更 简单 的 自然 语言 处 理 方法 
(比如 其 在 各 个 评分 器 中 使 用 的 方法 ) 进行 对 比 而 使 用 的 词 。DeepQA 
的 强大 之 处 在 于 融合 了 这 些 浅 层 方法 ， 这 是 它 的 核心 设计 原则 之 一 ， 
就 像 网 飞 奖 的 最 佳 模型 是 简单 模型 的 混合 体 一 样 。 人 尘 


1. Ferrucci et al.,“Building Watson.” 
2. Rob High, The Era of Cognitive Systems:An Inside Look at IBM Watson and How It 


Works, Marketing White Paper,Redbooks,accessed 
December27,2017,http://www.redbooks.ibm.com/redpapers/pdfs/redp4955. pdf. 
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“ 沃 森 ” 回 答 《 人 危险 边 毕 》 问 题 的 能 力 是 否 表明 它 真 的 有 智能 ? 管 
RAAB PA AA Lae TPA: AEB, BD SAR A LRH 
话 古 这 样 。 为 了 理解 原因 ， 让 我 们 回顾 一 下 “ 沃 森 ” 是 如 何在 给 出 线索 
时 找到 正确 答案 的 。“ 沃 森 ? 的 第 一 步 是 用 人 类 创造 的 各 种 规则 来 梳理 
线索 。 它 创建 了 一 个 句 型 图 ， 并 使 用 人 工 制 作 的 规则 提取 并 标记 用 于 
回答 线索 的 关键 信息 。 然 后 “ 沃 森 ” 使 用 这 些 信息 在 搜索 引擎 上 搜索 正 
确 答案 ， 再 根据 搜索 结果 创建 候选 答案 列表 ， 然 后 对 这 些 候选 答案 进 
行 般 选 ， 并 搜索 更 多 文 持 每 个 候选 答案 的 证 据 。 在 此 之 后 ， 它 对 搜集 
到 的 证 据 进 行 评分 ， 最 后 用 一 系列 的 变换 和 分 类 器 移出 最 佳 候 选 管 


案 。 


然而 ， 在 这 个 流程 中 ,“ 沃 森 ? 并 没有 真正 理解 线索 要 问 的 是 什 
么 。 它 只 十 遵循 一 系列 确定 的 步 又， 用 人 工 设计 的 规则 和 从 数据 中 学 
到 的 权重 来 检查 问题 并 对 证 据 进 行 评分 。 


我 们 可 以 通过 观察 “ 沃 森 ” 在 现场 比赛 中 出 现 的 问题 来 更 深入 地 了 
解 它 的 局 限 。 我 们 已 经 看 过 一 个 例子 ,“ 沃 森 ” 在 没有 性 别 评分 絮 之 前 
猜测 理 查 德 :尼克 松 古 美国 第 一 夫人 ， 这 个 结 采 让 人 司 到 左 有 些 尴 入 。 
在 “ 沃 森 ”缺少 正确 的 评分 右 和 过 滤 副 的 时 候 ， 这 类 问题 随时 会 发 生 。 
相关 的 问题 导致 “ 沃 森 * 有 时 会 给 出 令 人 反感 的 答案 。 


正如 斯 蒂 芬 :贝克 在 《和 危险 边缘 总 决赛 》 一 书 中 提 到 的 那样 ，“ 活 
森 "? 和 几 位 人 类 对 手 在 一 次 练习 中 被 要 求 用 一 个 4 个 字母 的 单词 来 表 
达 “ 和 否定”。 虽 然 * 沃 森 " 并 不 太 有 信心 抢答 ， 但 它 显示 在 屏幕 的 首选 答 
案 是 “Fuck (他 妈 的 ) 是 什么 意思 ? ”。 (幸运 的 是 ，《 危 险 边缘 》 的 
一 位 高 管 及 其 同事 觉得 这 很 有 趣 ， 并 没 感觉 到 恼火 。) 然而 ， 这 并 不 
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森 " 在 现场 比赛 中 不 会 说 出 蠢 话 (这 个 团队 后 来 被 称 为 “笨蛋 团队 *) ， 
而 另 一 个 团队 则 构建 了 脏话 过 滤器 ， 它 可 以 在 现场 比赛 中 审查 “ 沃 
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“ 沃 森 ”还 受到 它 与 世界 交互 方式 的 限制 。 例 如 ， 在 一 次 现场 比赛 
中 ,，“ 沃 森 ” 遇 到 了 一 个 它 可 以 非常 准确 地 回答 线索 的 类 别 。“ 沃 森 ” 的 
创建 者 巧妙 地 为 它 编写 了 程序 ， 让 它 在 选择 题目 类 别 的 时 候 更 青睐 这 
些 类 别 。 对 *“ 沃 森 ? 而 言 ， 不 幸 的 是 ， 这 个 类 别 的 线索 也 非常 短 ， 这 意 
味 着 每 当 “ 沃 森 * 从 这 个 类 别 中 选择 一 条 线索 时 ， 它 的 人 类 竞争 对 手 可 
以 比 “ 沃 森 " 更 快 地 回答 问题 ， 从 而 得 分 ， 并 从 “ 沃 森 * 手 中 村 走 题目 选 
择 权 。( 岂 在 另 一 个 例子 中 ， 肯 : 詹 宁 斯 答 错 了 一 个 问题 ， 此 时 “ 沃 森 ” 抢 
"T 。* 沃 森 " 的 回答 也 不 正确 ， 但 它 的 答案 并 非 是 无 厘 头 的 错误 答 
案 ， 只 是 它 给 出 的 答案 与 詹 宁 斯 刚刚 的 错误 答案 一 模 一 样 ! 


DeepQA 的 大 部 分 信息 都 来 自 IBM 本 身 ，IBM 有 财务 激励 机 制 ， 还 
有 一 支 熟 练 的 营销 团队 来 宣传 < 沃 森 "是 真正 的 “智能 "机 器 。 人 四) 例 如 ， 
在 IBM 的 一 份 日 皮 书 中 ，IBM 将 “ 沃 森 ”的 评分 髓 描述 为 “推理 算法 ”， 这 
有 点 牵强 ， 因 为 其 中 一 些 评分 顺 只 做 诸如 统计 重 琶 单词 的 数量 之 类 的 
事情 。IBM 推 销 “ 沃 森 * 是 “各 类 问题 的 通用 智能 解决 方案 ”。 


无 论 “ 沃 森 ” 在 《人 危险 边缘 》 比 赛 中 表现 得 多 么 出 色 ， 它 最 初 的 版 
本 仍然 是 针对 这 一 非常 具体 的 任务 而 设计 的 。 吏 像 *“ 实 用 主义 理论 ” 队 
专注 于 顾 得 网 飞 奖 一样,“ 沃 森 ? 背 后 的 团队 专注 于 构建 一 个 可 以 玩 
《危险 边缘》 的 系统 。 所 以 “ 沃 森 ”( 至 少 是 原始 版 本 的 ) 在 不 被 重新 
改造 的 情况 下 做 不 了 其 他 任何 事情 。 事 实 上 ，IBM 已 经 将 “ 沃 森 ” 推 广 
到 各 种 应 用 。 这 些 系统 有 些 可 能 与 最 初 的 “ 沃 森 ”的 实现 方式 非常 不 
同 ， 因 此 我 们 很 难 判 断 “ 沃 森 ” 在 其 他 应 用 上 的 性 能 。 它 在 《人 危险 边 
缘 》 之 外 有 时 也 会 收 到 令 人 失望 的 评价 。 


尽管 如 此 ， 当 * 沃 森 ” 首 次 引起 缀 动 时 ，IBM 还 是 公布 了 它 的 工作 
原理 ， 并 且 这 项 研究 已 经 被 主流 自然 语言 处 理学 界 所 接受 。 毫 无 疑 
问 ,“ 沃 森 * 玩 《危险 边缘 》 的 能 力 被 广泛 认为 是 一 项 值得 尊敬 的 工程 
成 就 ， 而 IBM 在 建造 它 时 设置 了 更 高 的 标准 。( 当 


在 《危险 边缘 》 游 戏 中 ， 像 “ 沃 森 ”这 样 的 玩家 必须 在 游戏 中 做 出 
许多 与 理解 目 然 语 言 无 天 的 决策 。 这 些 决策 涉及 更 高 层次 的 策略 ， 例 
如 何 时 抢答 、 是 否 抢答 、 下 注 多 少 ， 以 及 下 一 步 该 选择 哪 条 线索 。 除 
了 线索 评分 器 之 外 ,，“ 沃 森 ” 背 后 的 团队 还 为 “ 沃 森 ” 精 心 设计 了 算法 ， 
让 它 可 以 做 出 这 些 战略 决策 。 


这 些 算法 是 建立 在 “ 沃 森 * 的 人 类 对 手 行为 模型 的 基础 上 的 。 我 们 
可 以 用 整整 一 章 来 讨论 这 个 话题 ， 概 壕 “ 沃 森 ” 如 何 模 拟 游戏 的 未 来 状 
人 态 以 做 出 决定 。 但 是 ,我 们 与 其 在 下 一 章 中 继续 关注 “ 沃 森 *“"， 不 如 看 
看 更 普 裔 的 问题 ， 即 六 能 机 器 如 何 玩 策略 游戏 。 


1. Baker, “Watson Takes on Humans,”128. 


2. Casey Johnston,“Bug Lets Humans Grab Daily Double as Watson Triumphs on 
Jeopardy,” Ars Technica,February17,2011. 


3. High, The Era of Cognitive Systems. 


4. Daniel Jurafsky and James H.Martin,Speech and Natural Language Processing(Upper 
Saddle River, NJ:Prentice Hall,2015). 
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我 并 不 建议 按照 自己 的 想象 来 设计 策略 。 相 反 ， 策 略 应 该 与 计算 
机 的 能 力 和 弱点 相 匹配 。 计 算 机 速度 快 ， 精 度 高 ， 而 分 析 和 识别 能 
莽 。 因 此 ， 它 应 该 比 人 类 更 多 地 使 用 蛋 力 计算 。 


克 劳 德 .香农 (Claude Shannon) (E) 


1. Claude  E.Shannon, Programming  aComputer for Playing Chess,”Philosophical 
Magazine7,no.314(1950). 


在 本 书 的 第 一 章 中 ， 我 们 看 到 ，18 世 纪 的 自动 机 和 机 械 发 条 的 原 
理 是 一 样 的 。 它 们 仅 使 用 滑轮 、 齿 轮 、 杠 杆 等 机 械 部 件 束 能 表演 惊人 
的 特技 ， 例 如 演奏 大 键 雁 ， 写 出 清晰 易 读 的 句子 ， 用 它们 手中 的 铭 笔 
绘制 详细 的 插图 。 它 们 通过 遵循 编码 在 发 条 中 的 程序 来 实现 这 些 功 
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在 本 书 中 ， 我 们 遇 到 了 可 以 模拟 各 种 各 样 人 类 行为 的 计算 机 程 
序 ， 在 接 下 来 的 两 章 里 ， 我 们 将 更 深入 地 人 研究 一 些 计 算 机 程序 ， 它 们 
被 开 发 用 来 玩 国际 象棋 和 围棋 之 类 的 游戏 ， 并 且 胜 过 了 最 优秀 的 人 类 
棋 手 。 这 些 游戏 目 动机 是 以 现代 数字 计算 机 程序 的 形式 存在 的 ， 但 是 
与 它们 的 机 械 祖 先 一 样 ， 现 代 计 算 机 仍然 遵循 程序 。 


事实 上 ， 玩 国际 象棋 和 围棋 等 游戏 的 计算 机 程序 只 需要 用 物理 设 
甸 号 可 以 完美 地 复制 出 来 。 这 些 机 械 计算 机 ， 有 了 时 被 称 为 机 械 图 灵 
机 ， 可 以 仅 由 木 制 部 件 构 成 ， 由 手 播 曲柄 提供 动力 。 这 种 木 制 计算 机 
可 能 需要 非常 庞大 的 、 大 到 可 能 需要 不 切实 际 的 巨额 投资 来 建造 并 所 


供 动力 ， 但 机 械 计算 机 至 少 在 理论 上 是 可 能 的 。 由 | 
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玩 策 略 游戏 ， 而 且 还 能 玩 得 那么 好 ， 其 至 战胜 了 最 优秀 的 人 类 玩家 
呢 ? 这 便 是 贯穿 本 章 的 核心 问题 ， 当 我 们 探索 如 何 编程 机 器 去 玩 策 略 
游戏 时 ， 你 应 该 时 刻 捅 摩 这 个 问题 。 这 些 机 器 的 关键 特 性 之 一 是 有 预 
测 能 力 ， 它 们 香 此 预测 游戏 未 来 会 如 何 发 展 。 为 了 了 解 其 中 的 工作 原 


理 ， 让 我 们 从 一 个 简单 的 游戏 开始 ， 玩 这 个 游戏 的 程序 只 需要 预测 目 
己 的 着 法 ， 这 个 游戏 便 是 经 典 的 数 独 。 
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| 制图 灵机 和 现代 计算 机 之 间 的 主要 区 别 是 现代 计算 机 可 以 运行 得 更 快 ， 而 且 内 存 
占用 的 空间 要 少 得 多 ， 这 也 是 你 不 会 购买 木 制图 灵机 作为 你 的 下 一 台 计 算 机 的 原因 。 
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数 独 


数 独 是 一 种 游戏 ， 在 这 个 游戏 中 ， 唯 一 的 玩家 必须 把 数字 1 到 9 填 
到 9x9 网 格 中 的 空格 (单元 格 ) 里 。 对 于 每 局 数 独 游戏 ， 题 日 创建 者 
会 在 某 些 单元 格 中 预先 填 好 数字 ， 因 此 在 游戏 开始 之 前 ， 网 格 看 起 来 
与 图 14.1 类 似 。 


数 独 游戏 的 目标 是 在 每 个 空格 中 填 入 一 个 数字 ， 使 每 一 行 、 每 一 
列 ， 每 一 宫 ( 即 9 个 3x3 子 集 网 格 ) 中 都 含有 数字 1 到 9， 且 不 重复 。 


人 类 解数 独 是 的 方法 是， 一 次 填 一 个 方 格 ， 其 间 结 合 一 些 猜测 和 
排除 的 过 程 。 例 如 ， 我 们 可 能 会 注意 到 ， 第 一 行 的 第 三 个 方 格 除了 5 不 
可 能 是 任何 其 他 数字 ， 所 以 我 们 把 5 填 入 那个 方 格 ， 然 后 继续 。 
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有 些 单元 格 有 些 难度 : 乍 一 看 ， 倒 数 第 二 行 的 第 三 个 单元 格 可 能 
征 1、2 或 8。 所 以 我 们 可 以 爷 关 注 其 他 的 方 格 ， 硕 望 这样 能 在 我 们 稍 后 
回 到 那个 单元 格 时 减少 可 选 的 数字 ; 或 者 我 们 可 以 用 铅笔 填 入 其 中 一 
个 数字 ， 比 如 8， 看 看 会 有 什么 结 有 末 。 上 面 这 个 题目 相对 容易 ， 因 为 它 
不 需要 太 多 猜测 。 在 更 难 的 题目 中 ， 如 采 不 进行 一 些 猜测 ， 游 戏 根 本 
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西 兰 人 韦 恩 : 古 尔 德 (Wayne Gould) 。 十 尔 德 设计 了 一 个 可 以 生成 数 
独 题目 的 计算 机 程序 ， 然 后 把 题目 免费 分 发 给 世界 各 地 的 报纸 。 上 古 尔 
德 的 程序 可 以 生成 不 同 难度 级 别 的 数 独 题 目 : 有 些 题目 即便 对 于 新 手 
玩家 也 很 容易 ， 比 如 上 图 中 那 道 题 ， 而 有 些 题目 对 于 经 验 丰富 的 玩家 
也 有 一 定 的 挑战 性 。 也 许 比 古 尔 德 的 计算 机 程序 更 聪明 的 是 他 的 营销 
TREE: 他 免费 癌 报 纸 提供 他 的 题目 。 作 为 回报 ， 报 纸 为 他 的 计算 机 程 
序 和 图 书 做 广告 ， 数 独 玩家 们 如 饥 似 兆 地 阅读 他 的 书 ， 由 此 ， 他 的 书 
MT 400% Ait ° 9 


虽然 数 独 玩 起 来 很 有 挑战 性 ， 但 编写 一 个 计算 机 程序 来 解数 独 题 
目 并 不 很 难 。 硅 合 的 软件 工程 师 在 工作 面试 时 束 会 遇 到 ， 而 且 几 乎 每 
一 举人 工 闹 能 入 门 课 痢 会 教授 你 解决 这 类 题目 所 需要 的 关键 工具 : E 
索 算 法 。 


我 们 已 经 看 到 ， 目 动 要 驶 汽车 使 用 搜索 算法 在 大 地 图 上 寻找 路 
径 ， 规 划 把 车 集 到 空 停车 位 的 方法 ， 我 们 还 看 到 语音 识别 软件 使 用 搜 
索 算 法 来 实现 隶 首 的 转录 。 我 们 使 用 搜索 算法 来 解数 独 题 的 方法 与 之 
类 似 ， 只 是 程序 必须 搜索 一 系列 的 数字 来 填 满 九 襄 格 ， 而 不 是 搜索 在 
地 图 上 移动 需要 采取 的 一 系列 步 又 。 


在 数 独 游 戏 中 ， 有 数 万 亿 种 可 能 的 九宫 格 配置 。 一 个 旨 在 解数 独 
题 的 计算 机 程序 需要 搜索 这 些 九宫 格 配置 ， 罗 有 历 其 中 的 许多 配置 ， 直 
到 找到 一 个 完全 填 满 的 九宫 格 ， 同 时 保证 它 是 合法 的 数 独 布局 。 在 图 
14.1 的 九宫 格 中 ， 有 45 个 空格 ， 因 此 搜索 算法 必须 搜索 许多 不 同 的 方 
式 来 用 数字 填充 所 有 这 些 空格 ， 直 到 找到 一 些 有 效 的 配置 


为 了 搜索 这 些 组 合 ， 搜 索 算法 会 对 不 同 状态 下 的 数 独 九宫 格 进行 
推 晰 。 九 喜 格 的 状态 由 当前 九 训 格 中 的 数字 精确 描述 。 当 搜索 算法 在 
九宫 格 中 填 入 某 个 数字 时 ， 它 便 会 从 一 个 状态 转移 到 男 一 个 状态 ， 即 


少 一 个 空格 的 状态 。 在 其 他 时 候 ， 搜 索 算 法 可 能 会 从 九宫 格 中 删除 一 
个 数字 ， 转 移 到 多 一 个 空格 的 状态 。 


搜索 算法 有 很 多 种 可 能 的 方式 经 历 这 些 状 态 ， 而 实际 上 决定 搜索 
算法 应 该 如 何 做 到 这 一 点 的 正 征 我 们 人 类 一 一 计算 机 程序 员 。 我 们 可 
以 对 计算 机 进行 编程 ， 尝 试用 所 有 可 能 的 数字 填充 第 一 个 空位 OU 
格 左 上 角 的 空格 ) ， 然 后 考虑 这 9 种 新 状态 。 对 于 9 种 状态 中 的 每 一 
种 ， 程 序 选择 1 到 9 中 的 一 个 数字 填 入 下 一 个 空位 ， 以 此 类 推 。 一 旦 算 
法 填 完 了 45 个 缺失 的 数字 ， 束 可 以 检测 九 训 格 配置 是 否 合法 。 如 采 不 
合法 ， 它 束 要 回去 修改 之 前 设置 的 某 个 数字 ， 然 后 继续 前 进 ， 它 不 断 
重复 这 个 过 程 ， 直 到 找到 一 个 有 效 的 组 合 。 


你 可 以 将 这 些 状态 看 作 以 树 形 结构 和 连接 的 ， 如 果 搜 索 算 法 可 以 通 
过 填 入 (或 删除 ) 一 个 数字 在 两 个 状态 之 间 移 动 ， 那 么 这 两 个 状态 就 
征 彼 此 连接 的 。 我 在 图 14.2 中 展示 了 这 样 一 个 搜索 树 ， 只 有 是 我 对 搜索 
树 进行 了 简化 ， 用 2x2 网 格 代 替 了 9x9 网 格 ， 因 此 填 入 网 格 的 数字 只 有 
1 到 3， 而 非 1 到 9。 这 柠 搜 索 树 确 部 有 81 种 不 同 的 状态 ， 然 而 图 太 小 ， 
你 无 法 看 到 更 多 的 细 玉 ， 因 此 我 还 在 图 14.3 中 展示 了 搜索 树 放 大 后 的 
于 集 。 
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图 14.2 寻找 把 数字 1、2、3 填 入 2x2 网 格 的 所 有 方法 的 搜索 树 。 随 着 树 的 层次 的 深入 ， 要 搜索 
的 状态 数量 迅速 增加 ， 树 的 底部 有 34=81 种 状态 。 一 个 有 45 个 空位 的 数 独 九宫 格 在 树 的 底部 有 
9 种 状态 


请 注意 ， 搜 索 这 样 的 树 的 计算 机 算法 不 需要 做 任何 “智能 ”的 决 
定 。 它 只 需要 在 它 治 着 树 癌 下 搜索 的 过 程 中 保持 一 致 。 在 树 的 任意 层 
次 上 ， 计 算 机 都 只 是 从 1 开始 把 尚未 竹 试 过 的 下 一 个 数字 填 入 下 一 个 空 
位 ， 然 后 移动 到 那个 状态 ， 重 复 相同 的 过 程 来 填写 剩余 的 空位 。 在 任 
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甘 试 了 所 有 可 能 的 数字 组 合 部 不 成 功 ， 那 么 它 束 把 1 车 换 为 2， 然 后 表 
次 竹 试 剩余 空位 的 所 有 组 合 ， 以 此 类 推 。 在 壬 试 这 些 组 合 时 ， 它 实际 
上 列举 了 用 数字 1 到 9 填写 45 个 空位 的 所 有 可 能 方法 ， 直 到 找到 一 种 可 
ITI A ° 


我 想 重申 我 已 经 提 到 的 两 点 。 首 先 ， 算 法 如 何 经 历 这 些 状态 取决 
于 程序 员 。 其 次 ， 如 图 14.2 和 图 14.3 所 示 的 搜索 树 为 计算 机 提供 了 一 种 
有 序 的 方法 来 访问 每 个 状态 。 像 这 样 的 算法 无 权 自主 决定 访问 哪个 状 
态 。 计 算 机 搜索 这 些 状态 时 遵循 着 简单 的 、 规 定性 的 算法 ， 这 正 是 一 
台 手 摇 曲 柄 驱动 的 木 制 机 器 所 能 做 的 事情 。 
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114.3 图 14.2 中 搜索 树 的 一 个 子 集 ， 它 仅 显示 搜索 树 中 一 些 特定 的 状态 。 在 树 的 每 个 层次 ， 
算法 选择 下 一 个 空位 并 尝试 用 数字 1 到 3 中 的 每 一 个 填 入 它 (以 粗 体 显 示 ) 。 算 法 使 用 其 中 一 
个 数字 填 入 这 个 空位 ， 然 后 深入 下 一 个 层次 ， 党 试 填写 下 一 个 数字 


1. Will Shortz,“Wayne Gould,”Time Magazine,May8,2006. 


树 的 大 小 


不 幸 的 征 ， 像 这 样 的 蛮 力 方法 同样 不 切实 际 ， 因 为 这 需要 计算 机 
考虑 指数 级 的 状态 数量 。 正 如 我 在 第 9 草 和 第 10 草 中 讨论 神经 网 络 时 一 
样 ， 我 所 说 的 “指数 ?是 数学 意义 上 的 : 在 数 独 搜索 树 中 ， 我 们 每 深入 
一 层 ， 状 态 数量 就 古 之 前 的 9 倍 。 如 图 14.4 所 示 ， 对 于 只 有 两 层 深 度 的 
树 ， 它 有 81 种 状态 。 如 果树 有 45 层 深 ， 它 的 状态 数 大 约 十 1 后 面 跟 着 43 
个 0。 这 个 状态 数 太 大 了 ， 即 便 我 们 有 一 大 群 人 去 摇 木 制 机 器 的 曲 林 ， 
也 无 法 在 合理 的 时 间 内 完成 评 佑 ， 更 不 用 说 大 型 计算 机 集群 了 。 


但 我 们 无 须 列举 所 有 可 能 的 状态 来 找到 解决 方案 ， 这 对 我 们 有 和 帮 
助 吗 ? 例如 ， 对 于 前 面 看 到 的 数 独 方 阵 ， 我 们 只 需要 尝试 其 中 的 
36%， 就 能 找到 有 效 的 答案 。 不 幸 的 是 ，10 久 的 36% 是 1042.6， 这 个 数 
字 仍 然 大 得 令 人 难以 置信 。 


我 们 可 以 通过 “ 修 瘟 ”搜索 树 的 分 文 来 解决 这 个 问题 ， 如 琳 我 们 知 
JEEP A SCIO RI EAM BORE SE, BBA BY RIX hae ERU 
搜索 。 因 此 ， 当 试图 找 出 将 哪个 数字 填 入 空位 时 ， 我 们 仍然 会 考虑 从 1 
到 9 的 每 个 数字 ， 但 只 有 在 选择 这 个 数字 会 带 来 有 效 的 数 独 布 局 时 ， 我 
们 才 会 进入 另 一 个 状态 。 我 在 图 14.5 中 展示 了 这 个 算法 的 搜索 树 。 
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图 14.4 只 有 两 个 层次 的 数 独 搜索 树 的 状态 数 为 9x9=81。 因 为 搜索 树 每 加 深 一 层 ， 状 态 数 就 是 
之 前 的 9 倍 ， 所 以 我 们 必须 使 用 修剪 算法 来 缩小 搜索 范围 
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找 数 独 九宫 格 中 的 数字 。 大 多 数 分 支 都 被 前 短 了 ， 


它们 会 导致 数 独 九宫 格 无 法 得 到 有 效 的 数 独 布局 


Zh. 


=) 


可 用 来 


图 14.5 “修剪 "后 的 搜索 树 ， 


图 14.5 几 乎 不 是 一 棵 “ 树 ”， 它 更 像 是 一 道 “ 探 测 光 束 ”! 如 你 所 见 ， 
它 有 几 个 错误 的 开端 ， 但 是 算法 不 需要 在 每 个 层次 上 生出 太 多 分 支 。 
修剪 后 的 搜索 树 每 一 层 通常 只 有 一 个 分 文 ， 而 不 是 9 个 。 如 果 我 们 幸运 
的 话 ， 对 于 树 中 的 大 多 数 层 次 ， 我 们 可 能 都 只 检查 9 个 九宫 格 ， 一 旦 我 
们 发 现 它们 是 非法 的 ， 就 可 以 放弃 它们 。 这 会 在 大 多 数 层次 上 消除 9 个 
分 支 中 的 8 个 ， 只 剩 下 1 个 分 支 ， 然 后 进入 下 一 个 层次 。 me 我 们 只 
需要 评估 大 约 9x45 个 九宫 格 ， 即 区 区 405 个 状态 而 已 。 这 个 数字 足够 
小 ， ee c o 


分 支 因 于 


搜索 树 在 每 个 层次 上 的 增长 量 有 时 被 称 为 分 文 因 于 或 分 文 比率 。 
第 一 个 未 修 盘 的 数 独 搜索 树 的 分 文 因 了 于 是 9， 修 草 后 的 搜索 树 的 分 文 因 
于 接近 1。 分 支 因 子 因数 独 九 宫 格 的 初始 布局 而 异 ， 而 人 类 解数 独 题 目 
的 难度 在 很 大 程度 上 取决 于 这 个 题目 的 分 文 因 子 。 当 韦 恩 :上 古 尔 德 发 明 
程序 来 创建 数 独 九 宫 格 时 ， 他 肯定 意识 到 了 这 一 点 : 数 独 游戏 必须 在 
分 文 因 了 于 上 取得 适当 的 平衡 。 它 不 能 低 到 让 人 感觉 机 械 ， 也 不 能 高 到 
让 人 感觉 泄气 。 


游戏 中 的 不 确定 性 


从 人 工 智 能 研究 的 角度 来 看 ， 像 数 独 这 样 的 单 人 游戏 往往 不 那么 
有 趣 ， 因 为 它 没有 不 确定 性 : 从 第 一 个 回合 到 最 后 ， 玩 家 的 搜索 路 径 
和 可 以 采取 的 行动 都 是 明确 定义 的 。 让 游戏 变 得 更 有 趣 的 是 不 确定 
性 。 当 涉及 一 定 的 随机 性 时 ， 不 确定 性 束 会 显现 出 来 ， 例 如 任何 丘 骨 
于 的 游戏 或 者 有 多 个 玩家 的 游戏 ,国际 象 棋 也 具备 这 样 的 不 确定 性 。 


为 了 了 解 当 存在 一 定 不 确定 性 时 游戏 玩法 的 变化 ， 让 我 们 来 看 一 
个 简单 的 游戏 ， 我 称 之 为 “你 选 这 个 ， 然 后 毛 硬 币 ”， 如 图 14.6 所 示 。 
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你 选 这 个 掷 便 币 ” 你 付 给 我 的 钱 


图 14.6 
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(很 抱歉 ， 这 个 游戏 对 你 而 言 并 不 怎么 有 趣 ) o TERT E EA AR 
图 ， 想 想 你 的 第 一 步 策 略 是 什么 。 


为 了 推理 这 个 游戏 ， 你 或 许 会 计算 上 面 两 个 结果 的 平均 值 ， 然 后 
与 下 面 两 个 结 采 的 平均 值 进行 比较 ， 根 据 平均 数 决定 选择 上 面 的 分 文 
更 好 ， 因 为 你 付 给 我 的 乎 均 报酬 更 少 。 如 有 果 厌 恶 风 险 ， 你 可 能 有 不 同 
的 推理 : 你 会 注意 到 10 美 元 是 可 能 出 现 的 最 糟糕 的 结 有 末 ， 于 是 选择 下 
面 的 分 文 来 避免 这 种 结 有 末 。 无 论 你 采取 哪 种 策略 ， 重 要 心得 都 症 ， 你 
通过 查看 最 终 的 钱 数 ， 回 到 起 始 位 置 做 决定 。 


双人 游戏 同样 有 不 确定 性 ， 但 从 某 种 意义 上 讲 ， 这 种 不 确定 性 对 
两 位 玩家 而 言 都 很 小 ， 因 为 另 一 位 玩家 的 选择 在 某 种 程度 上 是 可 以 预 
测 的 。 请 考虑 图 14.7 中 的 游戏 ， 我 将 其 称 为 “你 选 这 个 ， 然 后 我 选 下 一 
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你 选 这 个 ” 我 选 下 一 步 你 付 给 我 的 钱 


图 14.7 


和 先前 的 游戏 一 样 ， 在 这 个 游戏 中 ， 你 先 选 择 癌 上 或 者 同 下 ;， 然 
后 我 会 在 下 一 步 选 择 生 同上 或 者 向 下 。 在 我 们 各 目 做 出 选择 之 后 ， 你 
依然 像 先 前 一 样 按照 最 终 的 金额 喇 我 付 钱 。 再 论点 时 间 看 看 图 14.7， 
在 继续 阅读 下 文 之 前 做 出 你 的 决定 。 


这 个 族 戏 对 你 而 言 依然 不 怎么 有 趣 ， 因 为 总 是 我 顾 。 但 你 预测 结 
果 的 能 力 确 实 更 强 了 ， 所 以 你 的 选择 更 容易 。 你 知道 我 总 是 会 选择 最 
大 的 数 子 一 一 10 美 元 或 6 美元 ， 所 以 你 会 选择 同 下 的 那个 分 支 ， 因 为 这 
样 你 只 需要 付 给 我 6 美元 。 殉 像 先 前 的 “你 选 这 个 ， 然 后 掷 硬币 ?游戏 一 
样 ， 你 从 最 后 开始 ， 然 后 同 前 回溯 ， 决 定 采取 哪 种 行动 。 


在 像 国际 象棋 这 样 的 游戏 中 ， 玩 家 需要 轮流 走 棋 很 多 回合 ， 你 会 
用 同样 的 方法 在 游戏 中 找到 最 佳 策略 ， 只 是 你 必须 在 游戏 过 程 中 预测 
更 多 的 决策 结果 。 搜 索 树 会 在 几 步 棋 之 内 出 现 大 量 分 支 ， 如 图 14.8 所 
示 ， 其 分 文 甚至 比 匈 中 的 还 要 多 。 在 这 张 图 中 ， 最 后 的 灰 点 代表 你 启 
的 结果 ， 日 点 代表 我 局 的 结 有 末 。 要 想 知 道 在 轮 到 你 的 时 候 你 应 该 采取 
什么 行动 ， 你 会 再 次 从 最 后 开始 推理 ， 然 后 回 前 回溯 。 在 每 一 个 层次 
上 ， 你 要 么 预测 我 采取 什么 行动 获胜 机 会 最 大 ， 要 么 为 目 己 选择 一 种 
能 最 大 限度 地 提高 你 获胜 机 会 的 行动 。 在 这 个 游戏 中 ， 只 要 你 做 出 正 
确 的 选择 ， 你 束 有 可 能 说 。 
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你 选 这 个 我 选 这 个 你 选 这 个 我 选 这 个 


图 14.8 多 层 搜索 树 ， 表 示 双 人 游戏 中 的 选择 。 树 的 每 个 层次 代表 一 名 玩家 在 两 个 动作 之 间 的 
选择 。 最 后 的 灰 点 代表 你 说 的 结果 ， 而 白 点 代表 我 说 的 结果 


如 有 果 我 们 想 要 编程 计算 机 来 玩 这 个 游戏 ， 我 们 会 像 玩 数 独 游戏 一 
样 使 用 搜索 算法 ， 但 是 我 们 会 编写 程序 来 预测 你 和 我 会 在 搜索 树 的 每 
一 层 上 采取 哪些 行动 。 程 序 必 须 从 搜索 树 的 深 处 开始 。 当 程序 在 搜索 
过 程 中 触及 游戏 结尾 时 ， 它 就 会 向 前 回溯 : 它 会 查看 我 在 最 后 一 步 所 

能 采取 的 所 有 行动 ， 预 计 我 只 会 做 出 允许 我 获胜 的 行动 (如果 这 样 的 


行动 存在 ) , FRR RAMEE ^ — HEBR, Ree NARR 
后 一 层 ， 因 为 它 知 道 我 行动 的 结 有 末 。 在 倒数 第 二 个 层次 上 ， 算 法 会 预 
测 你 会 选择 哪 一 步 。 你 会 选择 一 个 保证 你 会 启 的 行动 《如果 这 样 的 行 
动 存在 ) 。 一 旦 程序 知道 了 你 会 采取 哪 种 行动 ， 它 就 能 知道 谁 会 从 中 
胜出 ， 并 且 可 以 忽略 搜索 树 下 面 的 所 有 层次 。 于 是 程序 会 继续 在 树 中 
回 前 回 湖 ， 预 测 我 们 二 人 分 别 会 采取 什么 行动 ， 直 到 到 达 搜 索 树 的 开 
端 ， 即 游戏 的 当前 局 面 。 一 旦 到 达 起 点 ， 程 序 束 会 告诉 你 应 该 采取 什 
么 行动 来 确保 你 获胜 。 我 们 可 以 说 ， 这 个 算法 假定 每 个 玩家 都 是 理性 
的 ， 也 惑 是 说 ， 每 个 人 都 会 为 了 目 己 的 最 高 利益 而 行动 ， 并 且 会 提前 
思考 。 当 我 们 搜索 整 棵 树 时 ， 可 以 假设 每 个 玩家 都 是 理性 的 。 正 如 你 
从 树 的 末尾 开始 计算 每 个 玩家 的 最 佳 行动 一 样 ， 程 序 也 会 以 可 预测 的 
方式 做 同样 的 事情 。 


当然 ， 上 面 的 搜索 树 比 国际 象棋 的 搜索 树 简单 得 多 。 在 上 面 的 树 
中 ， 分 支 因子 是 2， 游 戏 有 4 次 行动 (被 称 为 “ 层 ") 。 在 国际 象棋 大 师 
的 对 局 中 ， 搜 索 树 有 30 到 40 个 分 支 因子 ， 每 局 棋 平 均 40 步 。( 汪 这 会 导 
致 搜索 树 太 大 ， 计 算 机 无 法 在 不 进行 大 量 修剪 的 情况 下 完成 搜索 。 伟 
我 们 需要 搜索 的 状态 数 会 轻易 超过 1 后 面 跟着 59 个 0 这 样 的 数字 © 


我 们 有 是否 能 用 足够 快 的 计算 机 来 解决 这 个 问题 ? 不 能 。 当 我 们 进 
入 搜索 树 时 ， 状 态 的 指数 级 增长 速度 是 一 个 超越 扩 术 能 力 的 问题 : 评 
佑 所 有 这 些 状态 的 代价 总 是 高 得 令 人 望而却步 。 即 使 我 们 可 以 构建 一 
台 计 算 机 ， 它 可 以 在 合理 的 时 间 内 〈 比 如 说 两 分 钟 ) 评估 40 层 深度 的 
所 有 棋局 状态 ， 计 算 机 再 向 下 深入 两 层 也 会 陷入 停顿 ， 此 处 有 
40x40=1600 倍 的 状态 要 评 佑 ， 所 以 计算 机 需要 超过 两 天 的 时 间 来 处 理 
它 的 状态 。 而 且 这 还 是 用 我 们 修 藤 数 独 搜索 树 的 方法 修 瘟 过 的 树 : 
个 回合 可 选 的 30 到 40 种 着 法 都 古 合 法 的 。 因 此 ， 如 采 我 们 要 用 计算 机 
解决 国际 象棋 问题 ， 束 需要 另 一 种 方法 修剪 这 柠 树 。 
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如 果 去 过 密 软 根 州 中 西部 古色 上 古 香 的 盖 洛 德 小 镇 ， 你 很 可 能 会 看 
到 克 劳 德 . 香 农 的 青铜 半 和 映像。 香农 是 一 位 数学 家 ， 以 其 在 信息 论 领 域 
的 工作 而 闻名 ， 从 字面 意义 上 讲 ， 信 息 论 提供 了 一 种 优雅 的 方法 来 衡 
量 消息 中 所 包含 的 信息 量 。 


否 农 关于 信息 的 观点 主要 讨论 了 一 条 消息 的 特殊 程度 。 如 采 我 告 
诉 你 我 的 猫 会 噶 噶 叫 ， 那 么 我 并 没有 给 你 太 多 的 信息 ， 因 为 你 知道 大 
多 数 猫 部 会 发 出 这 种 声音。 然而， 如 果 我 告诉 你 我 的 狂 会 忌 叫 ， 那 么 
这 束 古 更 高 级 的 信息 ， 因 为 大 多 数 猫 不 会 也 叫 。 如 末 我 告诉 你 10 个 像 
这 样 的 不 同 的 (不 相关 的 事实， 那么 我 束 给 了 你 10 倍 的 信息 。 


香农 把 这 种 观点 编码 成 一 个 推理 信息 的 框架 。 他 通过 将 不 确定 性 
的 概念 形式 化 来 实现 这 一 点 : 信息 整 是 你 通过 消除 不 确定 性 而 获得 的 
东西 。 香 农 的 思想 引出 了 一 个 广泛 而 美妙 的 数学 分 文 ， 它 通常 被 称 为 
信息 论 。 信 息 论 的 思想 已 经 被 用 来 帮助 我 们 理解 各 种 各 样 的 事物 ， 例 
如 我 们 可 以 在 电子 信息 中 发 送 多 少 信息 的 理论 限制 。 这 与 “ 沃 森 ” 的 单 
词 重 三 评分 器 所 使 用 的 思想 相同 ， 评 分 器 根据 单词 传达 的 信息 量 对 单 
词 进行 加 权 ， 像 “蝎子 ”和 “ 查 维 奇 ”这 样 的 单词 比 “ 几 乎 "和 “一 个 ”传达 的 


信息 更 多 。 


香农 在 信息 论 方面 的 工作 对 于 机 器 学 习 领 域 是 极其 重要 的 ， 但 他 
在 1949 年 撰写 的 一 篇 天 于 如 何 创 建 能 下 棋 的 计算 机 程序 的 学 术 论 文 鲜 
为 人 知 。 在 计算 机 成 为 家 庭 用 品 的 几 年 前 ， 香 农 殴 如 何 编写 在 当下 人 
工 和 六 能 领域 已 经 司空 见 惯 的 下 棋 算 法 提出 了 一 些 位 单 但 深思 熟 虑 的 建 
议 。 他 的 核心 建议 之 一 是 关于 评价 函数 的 。 


ee 


评价 函数 是 一 种 可 以 应 用 于 游戏 状态 的 测试 ， 用 来 预测 在 每 个 玩 
家 理性 决策 的 前 提 下 谁 会 获胜 。 图 14.8 中 搜索 树 完美 的 评价 函数 会 告 
诉 你 从 每 个 游戏 状态 开始 谁 会 获胜 。 你 可 以 在 图 14.9 中 看 到 这 个 游戏 
的 完美 的 评价 函数 是 什么 样子 的 ， 在 图 中 ， 我 根据 最 终 的 获胜 者 对 
个 状态 进行 了 着 色 。 使 用 这 种 评价 函数 的 计算 机 算法 不 需要 一 直 搜索 
到 树 的 末尾 才能 确定 选择 哪 一 步 ， 它 只 和 需 搜 索 一 到 两 层 深 度 即 可 查看 
评价 范 数 以 确定 该 选择 哪 一 步 。 
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图 14.9 一 棵 多 层 搜索 树 ， 其 中 每 个 状态 都 用 评价 画 数 的 结果 进行 了 着 色 。 这 个 评价 画 数 
美的 : 它 描述 了 在 每 个 玩家 完美 发 挥 的 情况 下 ， 在 每 个 状态 下 哪个 玩家 将 会 硕 得 游戏 。 
践 中 ， 大 多 数 评价 函数 都 是 近似 的 
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我 们 通常 不 可 能 创建 出 完美 的 评价 函数 ， 因 此 必须 使 用 近似 的 评 
价 函 数 来 代 蔡 。 如 采 下 过 国际 象棋 ， 你 可 能 会 用 近似 的 评价 函数 来 决 
定 你 的 走 法 ， 长 至 无 须 思 考 承 给 棋盘 上 的 每 个 棋子 赋予 了 粗略 的 价 


É: 旦 后 比 马 价值 更 高 ， 马 比 兵 价值 更 高 ， 以 此 类 推 ， 而 你 的 对 手 的 
星 后 对 他 而 言 比 他 的 马 价值 更 高 ， 以 此 类 推 。 


正如 香农 解释 的 那样 ， 计 算 机 对 国际 象棋 的 评价 画 数 可 能 会 为 这 
些 棋 子 分 配 明确 的 权重 ， 皇 后 的 价值 是 9， 车 是 5， 象 是 3， 马 是 3， 兵 
是 1; 而 一 个 玩家 在 棋盘 上 拥有 的 全 部 棋子 的 价值 就 是 这 些 棋子 的 价值 
总 和 “。 舍 我 在 这 里 列 出 的 数字 是 随意 的 ， 很 可 能 并 不 正确 ， 但 这 些 数 
字 确实 捕捉 了 我 们 的 一 些 直觉 。 如 果 你 有 机 会 吃 掉 对 手 的 皇后 ， 但 在 
此 过 程 中 需要 牺牲 一 个 象 ， 那 么 这 仍然 是 一 步 好 棋 。 如 果 你 能 在 不 损 
失 任 何 棋子 的 情况 下 吃 掉 对 手 的 皇后 ， 那 就 更 好 了 。 为 了 将 其 形式 化 
为 更 严格 的 评价 画 数 ， 你 可 以 用 你 拥有 的 每 种 棋子 数量 的 加 权 之 和 减 
去 对 手 棋子 的 加 权 之 和 ， 如 下 所 示 : © 


(100K+9Q+5R+3B+3N+1P) 
— (100K9*9Q9*5R9*3B9*3N9*1P9) 


如 果 你 使 用 这 个 公式 ELF, AETR — AAF) 作 
为 评价 函 数 ， 那 么 它 将 帮助 你 根据 棋盘 上 每 种 棋子 的 数量 来 预测 谁 将 
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这 样 的 评价 画 数 就 会 非常 强大 。“ 深 蓝 * 是 IBM 开 发 的 一 个 强大 的 国际 
象棋 系统 ， 它 也 使 用 了 评价 画 数 ， 我 们 在 评价 画 数 中 使 用 了 12 个 特 
征 ， 而 “深蓝 ”使 用 了 超过 8000 个 特征 ! © 


这 些 和 额外 的 特征 可 能 是 什么 ”其 中 很 多 都 非常 深奥 ， 但 它们 大 致 
可 以 分 为 两 类 。 一 类 是 子 力 特 征 ， 即 描述 棋盘 上 有 哪些 棋子 的 特征 ， 
与 上 文中 的 特征 类 似 ， 男 一 类 是 位 置 特征 ， 即 描述 这 些 棋子 在 棋盘 上 
位 置 的 特征 。 例 如 ， 如 果 你 的 一 个 兵 靠近 对 手 棋盘 一 人 出 ， 它 的 价值 束 
更 大 ， 因 为 它 更 有 可 能 变 成 旦 后 。 的 确 ， 由 于 这 个 原因 ， 至 少 有 一 个 


版 本 的 “深蓝 ”倾向 于 把 兵 推进 到 棋盘 的 另 一 边 。 位 置 特征 同样 是 计算 
机 下 国际 象棋 所 必需 的 。 这 一 点 在 “深蓝 ”与 当时 的 国际 象棋 冠军 加 里 : 
卡 斯 帕 罗 夫 的 一 盘 对 局 中 表现 得 很 明显 。 包 


卡 斯 由 罗 夫 是 有 史 以 来 最 伟大 的 棋 手 之 一 。 他 激情 四 射 ， 精 力 充 
沛 ， 把 下 棋 描 述 为 “控制 混沌 ”"。( 罗 1988 年 ， 当 被 问 及 计算 机 能 否 在 
2000 年 击败 人 类 特级 大 师 时 ， 卡 斯 由 罗 夫 的 回答 很 简单 : “ 绝 不 可 能 
如 果 哪 位 大 师 在 和 计算 机 下 棋 时 遇 到 困难 ， 我 很 乐意 提供 我 的 建议 。” 
个 在 与 “深蓝 的 一 盘 对 局 中 ， pu nr 这 人 台 可 
怜 的 计算 机 知道 目 己 大 势 已 去 的 时 候 已 经 太 晚 : “深蓝 ”的 评价 函数 过 
ee E -四 


如 何在 实践 中 使 用 评价 函数 ? 一 种 方法 是 在 搜索 树 中 搜索 到 固定 
的 深度 ， 在 该 深度 对 每 个 游戏 状态 执行 评价 函数 ， 然 后 将 评价 函数 的 
结果 视 为 游戏 的 结果 ， 如 图 14.10 所 示 。 在 国际 象棋 这 样 的 游戏 中 ， 你 
无 须 搜索 40 层 深度 ， 可 能 只 需要 搜索 6 到 12 层 深度 ， 然 后 束 可 以 使 用 评 
价 函 数 来 确定 哪些 状态 让 你 最 有 希望 获胜 。 虽然 你 不 可 能 只 走 6 步 束 下 
完 一 盘 棋 ， 但 是 希望 在 于 ， 你 能 更 准确 地 知道 谁 在 这 个 深度 丘 优 势 。 


评价 函数 也 可 用 于 以 其 他 方式 修剪 搜索 树 。 其 中 一 种 是 使 用 一 个 
叫 “alpha-beta 剪 校 ? 的 方法 。 在 alpha-beta 剪 校 中 ， 你 可 以 根据 目前 在 搜 
索 树 中 所 观察 到 的 情况 进行 战略 性 修剪 。 假 设 你 在 和 我 下 棋 的 时 候 正 
在 思考 下 一 步 棋 该 怎么 走 。 在 研究 了 你 可 能 走 的 第 一 步 棋 〈 称 为 A) 
后 ， 你 根据 评价 函数 确定 这 步 棋 很 好 ， 然 后 考虑 我 对 A 这 步 棋 的 所 有 
应 对 着 法 ， 再 考虑 你 的 应 对 着 法 ， 以 此 类 推 。 


> 
圈 
U» 


你 选 这 个 ” 我 选 这 个 截至 此 处 ,执行 评价 函数 


图 14.10 在 双人 游戏 中 搜索 到 固定 深度 后 使 用 评价 函数 


此 时 ， 你 可 以 停止 搜索 ， 但 你 意识 到 你 可 能 会 找到 一 步 更 好 的 
棋 ， 我 们 称 之 为 着 法 B 或 着 法 C。 所 以 你 也 会 考虑 这 些 着 法 。 当 考虑 下 
一 步 (着 法 B) 的 时 候 ， 你 立即 注意 到 我 有 一 步 可 以 让 我 放下 棋局 的 
应 对 着 法 。 你 知道 我 总 是 会 为 目 己 选 择 最 佳 着 法 ， 所 以 再 考虑 着 法 B 
LBD T° RABEL ET B RAY DONT AOR SDSUEHE 


B。 因 此 ， 你 可 以 不 再 考虑 着 法 B， 转 而 考虑 着 法 C。 这 殉 是 alpha-beta 
SPEO p. 当 你 知道 搜索 树 上 的 某 个 分 支 不 会 市 来 比 你 已 经 找到 的 
分 文 更 好 的 结果 时 ， 就 剪 短 搜索 。 


alpha-beta 剪 枝 不 仅 限于 搜索 树 的 顶层 ， 它 可 以 应 用 于 树 的 任何 层 
次 。 它 的 效率 取决 于 你 在 搜索 树 中 的 搜索 顺序 ， 但 即使 你 没有 对 搜索 
进行 优先 排序 ， 它 依然 非常 有 效 。 这 也 是 IBM 的 国际 象棋 计算 机 “ 深 
蓝 ” 使 用 的 方法 之 一 。 包 
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“深蓝 >” 


IBM 的 计算 机 “深蓝 ?证 明了 国际 象棋 世界 冠军 加 里 ' 卡 斯 由 罗 夫 在 
1988 年 的 预测 是 错误 的 ， 他 预测 ， 到 2000 年 ， 没 有 一 台 计 算 机 能 打败 
特级 大 师 。 在 他 做 出 预测 不 到 一 年 的 时 间 里 ， 来 目 卡 内 基 - 梅 隆 大 学 的 
一 文 鲜 为 人 知 的 研究 生 团 队 建 造 了 一 人 台 计 算 机 ， 战 胜 了 国际 象棋 特级 
大 师 ， 这 是 有 史 以 来 第 一 次 。( 央 随 着 他 们 的 计算 机 及 其 后 代 机 在 接 下 
来 的 10 年 里 逐渐 进步 ， 计 算 机 变 得 越 来 越 有 竞争 力 ， 一 次 次 地 战胜 特 
级 大 师 。 


“深蓝 ” 便 起 源 于 这 群 研究 生 ， 他 们 最 初 主要 是 出 于 好 玩 才 开始 研 
究 国际 象棋 计算 机 的 ， 他 们 的 系统 主要 基于 该 项 目的 创始 成 员 许 峰 雄 
(Feng-hsiung Hsu) 设计 的 定制 硬件 。 使 用 硬件 下 国际 象棋 在 当时 并 
不 少见 ， 这 些 下 横 的 机 器 有 时 可 能 有 办 公 室 的 小 冰箱 那么 大 。( 电 但 是 
许 峰 雄 发 现 ， 用 硬件 实现 “深蓝 ”的 功能 与 单纯 用 软件 实现 的 相同 算法 
相 比 ， 可 以 获得 大 约 100 倍 的 加 速效 果 。( 时 “深蓝 ”在 很 大 程度 上 依赖 
于 硬件 赋予 的 快速 搜索 其 搜索 树 的 能 力 。“ 深 蓝 ” 分 布 在 30 台 不 同 的 计 
mL Wn" Ae eee 
棋 。 


但 “深蓝 ”背后 的 团队 发 现 ， 仅 用 评价 画 数 进行 一 定 深 度 的 蛮 力 搜 
索 是 不 够 的 。 他 们 发 现 ， 与 搜索 到 固定 深度 的 搜索 算法 相 比 ， 国 际 象 
棋 大 师 预测 的 棋 步 更 深 。“ 深 蓝 * 团 队 确 实 使 用 了 具有 有 限 深度 树 的 评 
价 画 数 ， 也 使 用 了 alpha-beta 剪 枝 ， 但 许 峰 雄 对 巧妙 的 剪 枝 算法 和 搜索 
技巧 持 怀 疑 态度 ， 至 少 在 他 们 的 硬件 中 是 这 样 的 。 许 峰 雄 和 他 的 团队 
没有 使 用 巧妙 的 方法 修剪 他 们 的 搜索 树 ， 而 是 采用 了 一 种 不 同 的 方法 
来 处 理 高 分 支 因 子 ， 一 种 叫 “ 单 步 延伸 "的 方法 。 付 


与 选择 性 地 切断 菜 些 搜索 路 径 的 剪 枝 方法 不 同 ， 单 步 延伸 选择 性 
地 延伸 某 些 搜索 路 径 。 例 如 ， 如 果 你 把 你 的 棋子 走 到 了 威胁 我 的 国王 
的 位 置 ， 我 就 会 采取 一 些 行动 来 保护 我 的 国王 。 这 类 着 法 的 特点 是 : 
它们 显然 是 我 能 选择 的 最 佳 着 法 ， 有 了 时 或 许 是 我 能 选择 的 唯一 着 法 ， 
当 “ 深 蓝 ” 发 现 了 这 些 着 法 时 ， 它 会 有 选择 性 地 朝 这 个 方向 延伸 搜索 ， 
这 个 延伸 方向 的 分 支 因子 接近 1。( 周 


与 DeepMind 设 计 的 可 以 玩 许多 不 同 游戏 的 雅 达 利 游戏 智能 体 不 
同 ，“ 深 蓝 ” 是 专 为 下 国际 象棋 设计 的 。 虽 然 团 队 确 实 使 用 了 一 些 数 据 
驱动 的 调整 来 选择 其 评价 画 数 中 的 权重 ， 但 是 “深蓝 ”的 评价 画 数 中 的 
大 多 数 特征 都 是 人 工 选择 和 创建 的 ， 这 与 本 书 中 的 大 多 数 统计 机 器 形 
成 了 鲜明 对 比 。“ 深 蓝 ” 还 使 用 “开局 库 ” 来 选择 开局 时 的 最 佳 策 略 着 
法 ， 以 及 “残局 ”数据 库 来 选择 棋局 接近 终局 时 的 着 法 。 


Hsu,Behind Deep Blue,85. 
Hsu,Behind Deep Blue,85., 46 ° 
Hsu,Behind Deep Blue,85., 24 ° 
Campbell et al.,“Deep Blue.” 
Hsu,Behind Deep Blue,52—56. 


Hsu,Behind Deep Blue,85., 54 ° 
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Campbell et al.,“Deep Blue.” 


加 入 IBM 


当 许 峰 雄 开始 开发 最 终 发 展 成 为 “深蓝 ”的 国际 象棋 程序 时 ， 他 招 
募 了 他 的 研究 生 同 学 来 帮忙 。 人 时 项 目 进行 了 几 年 之 后 ，IBM 得 知 了 这 
些 学 生 在 开发 国际 象棋 程序 方面 的 工作 。 有 一 种 说 法 是 ， 这 个 想法 的 
LONE 
如 下 ; 


朋友 : “超级 碗 广告 这 种 营销 太 昂贵 了 ， 是 吧 ? ” 
副 总 裁 : “当然 了 。，” 


朋友 :“ 哦 ， 顺 便 问 一 下 ， 你 听 说 过 卡 内 基 - 梅 隆 大 学 团队 的 国际 
象棋 计算 机 吗 ? 没有 ? 或 许 IBM 可 以 雇用 这 个 团队 ， 他 们 可 以 打败 世 
界 上 最 好 的 棋 手 。 这 种 各 销 方式 可 能 对 生意 有 好 处 ， 而 且 可 能 更 便 
宜 ， 对 吧 ? ” 


副 | 总 裁 : “有 趣 "v a 


IBM 最 终 收购 了 从 事 这 个 项 目的 卡 内 基 - 梅 隆 大 学 生 的 核心 团队 。 
这 些 学 生 在 加 入 IBM 时 为 自己 做 了 一 笔 颇 具 吸 引力 的 交易 : 他 们 通过 
谈判 获得 了 构建 < 终极 国际 象棋 机 器 ”的 授权 。 他 们 要 求 自己 有 独立 做 
事 的 灵活 性 ， 公 司 里 没有 像 呆 伯 特 久 的 上 司 那 样 的 领导 对 他 们 发 号 施 
令 。( 同 他 们 实现 了 自己 的 愿望 ， 同 时 也 获得 了 在 IBM 工 作 的 其 他 一 些 
好 处 ， 包 括 使 他 们 能 够 构建 “深蓝 ”的 最 终 版 本 和 参加 比赛 的 雄厚 资 
金 ， 以 及 IBM 的 营销 团队 帮助 他 们 策划 同 加 里 - 卡 斯 帕 罗 夫 的 比赛 。( 针 


1997 年 ， 此 时 距离 加 里 卡 斯 由 罗 夫 做 出 2000 年 之 前 没有 计算 机 可 
以 击败 特级 大 师 的 预测 还 不 到 10 年 ， 研 究 人 员 的 国际 象棋 计算 机 系列 
终于 推出 了 “深蓝 ”的 最 终 版 本 。 在 一 场 6 局 的 比赛 中 ， 计 算 机 成 功 击败 
了 加 里 : 卡 斯 帕 罗 夫 ， 这 是 卡 斯 帕 罗 夫 职 业 生 涯 中 输 掉 的 第 一 场 比 赛 。 
许 峰 雄 写 道 : 


是 的 ， 你 没 看 错 。 在 1997 年 的 重 赛 之 前 ， 卡 斯 帕 罗 夫 在 职业 生涯 
中 从 未 输 过 一 场 比赛 。 有 些 人 担心 卡 斯 帕 罗 夫 输 掉 比赛 会 生气 。IBM 
团队 被 特别 要 求 在 闭幕 式 上 不 要 微笑 ， 尤 其 是 如 果 “ 深 蓝 * 赢 得 比赛 的 
ik. 


1. RTA” WRH TRAE” (Deep Thought) MiA WR” (ChipTest) 。 我 模糊 
了 “深蓝 "和 “深思 熟 虚 * 的 各 个 版 本 之 间 的 区 别 ， 在 实践 中 ， 它 们 在 硬件 和 软件 上 都 有 所 
不 同 。 

2. Hsu,Behind Deep Blue,93. 

3. RAR ES LS (Scott Adams) 讽刺 职场 现实 的 漫画 和 图 书 系列 中 的 主人 
公 ， 呆 伯 特 的 身边 总 是 有 陷害 他 的 上 司 。 一 一 译 者 注 

4. Hsu,Behind Deep Blue,93., 133 ° 


5. Hsu,Behind Deep Blue,93., 133 ° 
6. Hsu,Behind Deep Blue,93., 253-254 » 


搜索 与 神经 网 络 


那么 ， 为 什么 我 们 不 使 用 像 搜 索 算 法 这 样 的 方法 来 玩 雅 达 利 游戏 
We? 我 们 可 以 设计 一 个 搜索 算法 来 玩 《 打 砖 块 》 或 《太空 入侵 者 》 这 
类 游戏 吗 ? 虽然 我 不 愿 说 答案 十 断然 否定 的 ， 但 如 果 我 们 笑 试 这 样 
做 ， 束 要 面临 一 些 挑 战 。 


在 国际 象棋 和 数 独 游戏 中 ， 状 态 古 显而易见 的 ， 它们 接 述 了 棋子 
的 位 置 或 九 襄 格 中 的 数字 。 因 为 棋 表 上 的 位 置 和 游戏 规则 都 有 很 明确 
的 定义 ， 所 以 很 容易 把 状态 以 及 状态 之 间 的 转换 编码 到 搜索 树 中 。 但 
古 请 记 住 ，DeepMind 想 要 一 个 可 以 玩 许多 不 同 游戏 的 智能 体 。 目 前 我 
们 还 不 清楚 搜索 树 中 的 “状态 ”对 雅 达 利 游戏 而 言 应 该 是 什么 样子 。 雅 
达 利 游戏 的 搜索 树 中 的 状态 是 否 应 该 代表 屏幕 上 像素 的 独特 排列 ? 这 
将 导致 我 们 要 面 对 的 状态 远 远 多 于 国际 象棋 或 数 独 游戏 的 状态 。 更 大 
的 问题 是 ， 当 我 们 在 状态 空间 中 搜索 时 ， 我 们 不 知道 如 何 从 一 个 状态 
移动 到 另 一 个 状态 。 如 采 我 们 连 状态 如 何 相 互 连 接 都 不 知道 ， 那 么 搜 
索 算 法 整 很 难 预 测 游戏 的 未 来 ! 


在 玩 族 戏 时 ， 搜 索 算 法 的 作用 是 帮助 智能 体 从 当前 状态 找到 一 条 
最 有 可 能 获得 好 结果 的 状态 的 路 径 。 在 国际 象棋 中 ， 我 们 在 树 的 深 处 
寻找 评价 函数 具有 较 高 数值 的 状态 ， 人 然后 我 们 采取 让 我 们 更 接近 那个 
状态 的 行动 。 


用 神经 网 络 进行 强化 学 习 ， 为 我 们 提供 了 一 种 不 同 的 方法 来 实现 
相同 的 目标 。 在 玩 游戏 时 ， 强 化 学 习 的 作用 是 告诉 智能 体 哪 些 动作 会 
把 它 移 同 有 未 来 奖励 的 状态 ， 让 智能 体 这 些 状态 移动 。 强 化 学 习 本 
质 上 把 问题 从 (可 能 更 难 的 ) 搜索 问题 转变 为 “ 仆 山 ”问题 ， 从 而 让 它 
可 以 一 步 步 地 向 更 有 前 途 的 状态 移动 。 


有 时候 息 山 算 法 是 行 不 通 的 。 有 时 ， 算 法 会 把 你 带 到 一 个 低 矮 山 
丘 的 山顶 ， 周 围 有 更 高 的 山 ， 你 却 被 山谷 阻隔 ， 此 时 算法 就 不 太 奏 效 
了 。DeepMind 在 《蒙特 祖玛 的 复仇 》 这 类 游戏 中 就 遇 到 了 这 个 问题 ， 
它 没有 充分 探索 地 形 来 找 出 更 大 山 丘 的 位 置 ， 于 是 被 困 在 了 一 座 矮 山 
上 。( 时 相反 ， 搜 索 算 法 或 许可 以 搜索 到 更 广阔 的 区 域 ， 让 你 越过 那些 
山谷 。 至 少 在 理论 上 ， 我 们 对 游戏 树 的 搜索 越 深入 ， 就 越 有 可 能 为 智 
能 体 找到 好 的 行动 方案 。 


这 两 种 方法 是 否 可 以 混合 使 用 ? 也 就 是 说 ， 如 果 可 能 的 话 ， 我 们 
能 否 使 用 搜索 算法 深入 搜索 游戏 树 ， 然 后 在 搜索 算法 和 神经 网 络 的 混 
合体 中 使 用 像 雅 达 利 游戏 网 络 那样 的 非常 复杂 的 评价 画 数 ? 


1. ” 雅 达 利 游戏 网 络 还 有 其 


es 


也 局 限 ， 比 如 内 存 不 足 ， 这 也 给 它 在 游戏 中 带 来 了 问题 。 


西洋 双 陆 棋 程 序 


杰 拉 和 尔 德 . 特 索 罗 (Gerald Tesauro) 是 IBM 的 一 名 研究员， 他 为 沃 
森 玩 《危险 边缘 》 开 发 了 博弈 策略 。20 世 纪 90 年 代 中 前 期 ， 他 开发 了 
一 个 玩 西洋 双 陆 棋 的 程序 ， 使 用 的 方法 正 是 博弈 策略 。 西 洋 双 陆 棋 和 
国际 象棋 一 样 ， 是 一 种 双人 游戏 ， 玩 家 在 棋盘 上 移动 棋子 。 除 了 玩家 
走 子 之 外 ， 游 戏 还 需要 掷 般 子 ， 所 以 它 每 一 层 的 分 支 因 子 达 到 了 几 百 
(请 记 住 ， 一 层 代表 一 个 玩家 的 一 次 走 子 ) © 


特 索 罗 为 智能 体 编程 了 强化 学 习 程序 ， 束 像 DeepMind 为 它 的 雅 达 
利 游 戏 智 能 体 所 做 的 那样 。 和 DeepMind 一 样 ， 特 索 罗 设计 的 智能 体 使 
用 神经 网 络 。 它 的 架构 是 我 们 先前 看 到 的 “人 简单 的 ”神经 网 络 架 构 ， 包 
括 输入 层 、 输 出 层 和 一 个 隐藏 的 中 间 层 ， 如 图 14.11 所 示 。 
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14.11 


特 索 罗 的 双 陆 棋 网 络 的 输入 层 编码 了 每 个 玩家 的 棋子 在 棋盘 上 的 
位 置 ， 以 及 特 索 罗 人 工 创 建 的 一 些 特征 。 输 出 层 代 表 了 网 络 需 要 学 习 
的 4 种 可 能 的 结果 : 玩家 1 胜 、 玩 家 2 胜 、 玩 家 1 全 胜 、 玩 家 2 全 胜 。 如 你 


所 见 ， 输 入 层 和 输出 层 之 间 是 隐藏 的 中 间 层 。 在 特 索 罗 的 实验 中 ， 这 
个 隐藏 层 在 拥有 40 到 160 个 神经 元 时 效果 很 好 。 


村 索 罗 的 算法 是 搜索 算法 和 强化 学 习 的 混合 体 ， 在 使 用 神经 网 络 
执行 评价 画 数 之 前 ， 它 会 先 搜索 两 到 三 层 。 人 所 请 记 住 ， 特 索 罗 可 以 选 
择 使 用 搜索 ， 因 为 双 陆 棋 中 的 状态 和 转换 都 是 明确 定义 的 。 在 特 索 罗 
的 双 陆 棋 算 法 的 早期 版 本 中 ， 他 使 用 专业 玩家 的 棋谱 进行 强化 学 习 来 
训练 神经 网 络 。 这 种 “监督 "算法 效果 尚 可 ， 但 并 不 十 分 理想 。 


当 特 索 罗 让 神经 网 络 自我 对 弈 时 ， 情 况 发 生 了 变化 ， 这 使 得 神经 
网 络 接触 到 了 几乎 无 限量 的 训练 数据 ， 这 与 雅 达 利 游戏 智能 体 在 虚拟 
的 “街机 学 习 环境 ”中 玩 数 百 万 局 游戏 获得 的 好 处 相同 。 在 自我 对 弈 了 
大 约 150 万 盘 棋 后 ， 特 索 罗 的 “搜索 + 神经 网 络 ” 混 合体 可 以 与 最 优秀 的 
人 类 玩家 一 争 胜 负 ( 当 你 阅读 这 篇 文章 时 ， 它 很 可 能 已 经 比 最 优秀 的 
人 类 玩家 水 平 更 高 了 ) 。 它 甚至 教会 了 专业 双 陆 棋 玩 家 新 的 策略 ， 烟 
覆 了 游戏 的 传统 智慧 。 


特 索 罗 用 双 陆 棋 神 经 网 络 进行 自我 对 穿 ， 这 成 了 人 工 智能 领域 的 
一 个 著名 故事 ， 但 这 种 方法 在 人 工 智能 和 双 陆 棋 领 域 之 外 鲜 为 人 知 。 
被 公众 熟知 的 玩 游戏 的 人 工 智 能 程序 是 那些 登 上 全 国 头 条 新 闻 的 程 
序 ， 例 如 “深蓝 ”* 沃 森 ” 以 及 在 2016 年 和 2017 年 击败 了 两 位 围棋 世界 冠 
军 的 AlphaGo。 


1. Gerald Tesauro.“Temporal Difference Learning and TD-Gammon.”Communications of 
the ACM38,no.3(1995):58-68. 


2. Richard S.Sutton and Andrew G.Barto,Reinforcement Learning:An Introduction,2nd ed. 
(manuscript draft, MIT Press). 


3, Tesauro,“Temporal Difference Learning and TD-Gammon.” 


搜索 的 局 限 


深 监 ?和 特 索 罗 的 双 陆 棋 程序 背后 的 思想 是 最 终 使 AlphaGo 攻 殉 转 
mM 但 这 些 思想 本 号 还 不 够 。 一 合 下 国际 象棋 的 计算 机 可 
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听 起 来 可 能 并 不 简单 ， 得 其 市 的 特征 大 部 分 都 是 人 类 可 以 解释 的 这 
些 因 素 加 在 一 起 足以 推动 计算 机 算法 达到 并 超越 人 类 棋 力 的 极限 。 


围棋 则 不 同 。 围 棋 的 分 文 因 子 是 国际 象棋 的 近 10 倍 ， 而 且 围 棋 的 
评价 函数 也 必然 比 国 际 象棋 的 复杂 得 多 。 正 如 我 们 将 在 下 一 章 中 看 到 
的 ， 当 特 索 罗 开发 出 了 双 陆 棋 游 戏 智能 体 ， 以 及 1997 年 “深蓝 ?战胜 卡 
斯 帕 罗 夫 的 时 候 ， 计 算 机 下 出 高 水 平 围棋 所 必需 的 思 
在 。 要 让 计算 机 围棋 智能 体 达到 最 优秀 的 人 类 棋 手 的 水 平 ， 还 需要 20 
年 积累 的 新 思想 和 硬件 改进 。 


15 职业 水 平 的 围棋 


简单 地 扩展 更 多 更 快 的 处 理 器 对 当前 的 技术 而 言 古 不 够 的 。 我 认 
为 我 们 需要 一 两 个 算法 上 的 突破 性 思想 。 


Oy #8) (Marin Muller) 
阿尔 伯 塔 大 学 计算 机 科学 教授 兼 副 主席 外 
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上 全 球 新 闻 头 条 之 后 ， 该 项 目的 研究 人 员 在 世界 各 地 进行 了 各 种 演 
讲 。 人 詹姆斯 -法 恩 是 开发 该 系统 的 最 热心 的 支持 者 之 一 ， 也 是 系统 的 主 
要 研究 人 员 之 一 。 他 在 一 次 旅行 中 访问 了 阿尔 伯 塔 大 学 ， 在 那里 他 遇 
到 了 几 位 人 工 知 能 领域 的 顶尖 研究 人 员 。 其 中 一 位 是 马丁 . 穆 勒 ， 他 一 
直 在 人 研究 计算 机 围棋 算法 。 这 些 研 究 人 员 引 领 这 个 领域 已 经 有 一 段 时 
间 了 ， 但 问题 很 难 解 决 。 正 如 称 勒 教授 思考 的 那样 ， 目 前 我 们 还 不 清 
楚 计 算 机 古 否 能 在 短期 内 解决 这 个 问题 。 业 内 的 普 裔 共识 是 ， 计 算 机 
围棋 至 少 还 需要 10 年 才能 实现 。 但 是 移 勒 和 他 的 同事 并 没有 被 挑战 吓 
倒 ， 继 续 致 力 于 对 这 一 问题 的 研究 。 


1. Kirk L.Kroeker,“A New Benchmark for Artificial Intelligence,"Communications of the 
ACM54,no.8(2011). 


计算 机 围棋 


古老 的 围棋 一 直 被 认为 是 游戏 人 工 智能 领域 最 大 的 挑战 之 一 。 这 
种 最 古老 的 游戏 仍然 保留 了 它 原 始 的 形式 ,今天 在 全 球 拥有 数 千 万 玩 
家 。 尺 管 围棋 历史 您 久 ， 但 在 互联 网 时 代 ， 围 棋 也 意外 地 与 科技 并 
行 。 早 在 互联 网 出 现 之 前 ， 围 棋 玩 家 束 使 用 联网 的 计算 机 进行 远程 对 
JE; 1992 年 ， 互 联网 围棋 服务 右 问 世 了 ， 围 棋 爱 好 者 可 以 一 起 率 在 网 
上 下 棋 。( 时 随 着 时 间 的 推移 、 更 多 的 服务 器 出 现 了 ， 这 使 得 围棋 玩家 
能 够 遇 上 世界 各 地 的 玩家 ， 并 与 他 们 进行 对 穿 。 


《华尔街 日 报 》 在 2016 年 最 后 一 周报 道 ， 一 位 名 叫 Master CX 
师 ) 的 神秘 玩家 出 现在 其 中 一 个 服务 右上 ， 其 头像 是 一 只 大 眼睛 卡通 
狐狸 。Master 很 奇怪 ， 落 子 不 经 思考 ， 经 党 下 出 非常 规 或 看 似 很 糟糕 
的 棋 。 但 它 的 策略 不 知 为 何 总 是 奏效 : 在 一 周 的 时 间 里 ， 它 击败 了 多 
位 世界 顶尖 棋 手 。 事 实 上 ，Master 那 一 周 的 表现 非常 出 色 ， 它 赢得 了 
全 部 60 盘 棋 的 胜利 。 在 此 期 间 ，Master 有 一 盘 棋 的 对 手 是 当时 19 岁 的 
世界 冠军 柯 洁 ¢ 9) 


围棋 界 的 大 多 数 棋 手 都 不 知道 这 位 神秘 的 Master 是 谁 ， 但 柯 洁 在 
对 局 前 就 被 告知 : Master 是 AlphaGo 在 网 络 上 的 秘密 身份 ， 是 谷歌 的 
DeepMind 创 建 的 围棋 算法 。 


AlphaGo 并 不 是 第 一 个 下 围棋 的 程序 。 目 1968 年 以 来 ， 人 们 一 直 
在 编写 计算 机 程序 来 下 围棋 。1985 年 ， 某 组 织 悬 赏 4000 万 元 新 台币 
〈 约 合 今天 的 140 万 美元 ) ， 奖 励 给 能 够 创造 出 战胜 职业 棋 手 的 算法 、 
开创 计算 机 围棋 工作 的 人 。 而 这 个 奖项 10 多 年 来 一 直 未 能 颁发 ， 直 至 
被 撤销 ， 取 而 代 之 的 是 其 他 奖项 。( 同 甚至 IBM 也 尝试 过 创造 计算 机 转 
棋 算 法 ， 它 的 一 些 研究 人 员 在 被 拉 去 研究 “ 沃 森 ” 之 前 ， 也 在 研究 这 个 


问题 。 思 但 在 近 半 个 世纪 的 时 间 里 ， 一 个 能 够 战胜 世界 上 最 优秀 的 围 
棋 选 手 的 计算 机 程序 仍然 遥 不 可 及 。 


这 并 不 是 因为 缺乏 尝试 。 围 棋 对 计算 机 而 言 是 一 个 非常 困难 的 游 
戏 。 在 每 个 回合 中 ， 玩 家 必须 从 大 约 250 种 可 能 的 着 法 中 进行 选择 。 
时 仅仅 搜索 前 三 层 (你 走 一 步 ， 我 走 一 步 ， 你 再 走 一步 ) 的 算法 就 已 
经 需要 考虑 超过 1000 万 种 棋 表 状 态 。 而 几 千 万 种 状态 仅仅 是 一 盘 典 型 
围棋 对 局 的 冰山 一 角 ， 一 盘 围 棋 大 约会 持续 150 步 ， 这 大 致 是 一 盘 国际 
象棋 步 数 的 两 倍 ， 而 其 状态 数 则 是 国际 象棋 的 很 多 倍 。( 因 所 以 程序 员 
几 十 年 来 一 直 在 答 试 ， 使 用 了 各 种 典型 的 人 工 知 能 技术 : 他 们 编写 程 
序 来 搜索 游戏 树 ， 并 开发 评价 函数 (通常 是 简单 的 加 权 平 均 分 类 器 ) 
进行 豌 枝 。 人 然而， 游戏 树 过 于 庞大 ， 程 序 员 的 评价 函数 义 太 人 简单。 


1. Sensei’s Library,Go History,accessed April5,2017,http://senseis.xmp.net/? 
GoHistory#toc5. 


2. Eva Dou and Olivia Geng,“Humans Mourn Loss after Google Is Unmasked as China’s 
Go Master,”Wall Street Journal, January5,2017. 


3. Dieter Verhofstadt, Ing Prize,June20,2014,accessed 
February5,2017,http://senseis.xmp.net/?IngPrize. 


4. Stephen Baker,Final Jeopardy:The Story of Watson,the Computer That Will Transform 
Our World(New York:Houghton Mifflin Harcourt,2011). 


5. Alan Levinovitz,“The Mystery of Go,the Ancient Game That Computers Still Can't 
Win,"Wired,May12,2014. 


6. David Silver et al.,“Mastering the Game of Go with Deep Neural Networks and Tree 
Search,"Nature529(2016):484—503. 


围棋 


围棋 的 规则 很 简单 。 和 国际 象棋 一 样 ， 它 是 双人 游戏 ， 一 人 执 黑 
子 ， 另 一 人 执 白 子 。 玩 家 轮流 在 19x19 的 网 格 上 落 子 。( 包 沙子 后 ， 棋 
子 就 被 固定 在 棋盘 上 无 法 移动 ， 除 非 被 对 手 “ 吃 掉 ”。 如 果 棋 子 被 吃 
掉 ， 就 会 被 从 棋盘 上 拿 走 。 


围棋 的 目标 是 占领 地 盘 ， 即 让 你 的 棋子 在 游戏 结束 时 尽 可 能 多 地 
履 盖 棋盘 。 棋 局 中 的 重要 动态 是 ， 每 个 玩家 都 有 能 力 吃 掉 对 手 的 棋 
子 ， 方 法 是 用 自己 的 棋子 完全 包围 住 对 手 棋子 。 如 果 玩 家 在 棋盘 上 落 
下 一 枚 棋子 之 后 ， 完 全 包围 了 对 手 的 棋子 ， 让 其 没有 了 “ 气 ”， 那 么 玩 
家 就 可 以 把 这 些 棋 子 从 棋盘 上 拿 掉 。 你 可 以 在 图 15.1 (a) 和 图 15.1 
(b) 中 看 到 这 样 的 示例 ， 这 是 两 位 冠军 李 世 石 和 柯 洁 之 间 的 一 盘 棋 。 
图 15.1 (b) 中 ， 白 棋 在 D6 处 落 子 ， 吃 掉 了 D4 和 D5 处 的 两 枚 黑子 ， 然 
后 玩家 就 把 它们 从 棋盘 上 拿 掉 。 这 样 ， 白 棋 为 自己 获得 了 地 盘 ， 并 进 
一 步 巩 固 了 自己 的 地 位 。 当 任意 一 位 玩家 认输 ， 或 者 两 位 玩家 都 放弃 
落 子 的 时 候 ， 棋 局 就 此 结束 。 
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图 15.1 两 位 围棋 冠军 李 世 石 和 柯 洁 之 间 的 一 盘 对 局 。 (a) Re, ER (D) 图 中 
白 棋 落 子 ， 白 棋 落 子 后 ， 吃 掉 了 两 榴 黑 子 。 棋 局 截图 来 自 https://gogameguru.com/2ndmlily- 
cup-final (thisisgame3of5oftheMLilycupfinal) 


尽管 围棋 规则 简单 ， 但 围棋 的 策略 深刻 而 又 微妙 。 这 一 事实 并 没 
有 被 全 世界 的 职业 棋 手 回避 。 柯 洁 输 给 Master 后 ， 他 反思 道 : “人 类 经 
过 了 千年 的 实战 演练 进化 ， 计 算 机 却 告诉 我 们 ， 人 类 全 痢 是 错 的 。 我 
觉得 ， 甚 至 没有 一 个 人 沾 到 围棋 真理 的 边 儿 。” 归 


这 也 是 围棋 对 计算 机 而 言 具 有 挑战 性 的 原因 之 一 : 众所周知 ， 判 
靳 围棋 棋局 的 状态 异常 困难 。 你 吃 掉 对 手 的 棋子 还 是 对 手 吃 掉 你 的 棋 
子 ， 二 者 之 间 的 差别 取决 于 你 的 一 枚 棋子 是 否 放 错 了 位 置 。 例 如 ， 如 
果 图 15.1 (b) 中 的 白 棋 没有 下 在 D6 吃 掉 黑 子 ， 那 么 黑 棋 就 可 以 下 在 
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棋盘 上 棋子 的 价值 完全 取决 于 这 些 棋 子 的 位 置 。 这 与 国际 象棋 不 同 ， 
国际 象棋 的 评价 函数 在 很 大 程度 上 依赖 于 不 同 棋子 的 价值 《我们 在 上 
一 章 中 称 之 为 子 力 特 征 ) 。 在 国际 象棋 中 ， 旦 后 的 价值 远 远大 于 兵 ， 
以 牺牲 呈 后 为 代价 攻击 一 个 兵 ， 你 永远 都 不 会 考虑 这 种 着 法 。 在 围棋 
中 ， 评 价 函 数 必 须 识别 棋 弄 上 棋子 的 重要 模式 ， 这 需要 可 以 媲美 人 类 
的 模式 匹配 能 力 ， 这 是 一 项 非 几 的 任务 ， 因 为 这 些 直 觉 通常 很 难 被 人 
类 描述 。 棋 局 瞬 电 万 变 的 事实 更 加 剧 了 这 种 情况 : 正如 我 们 在 上 一 段 
中 所 看 到 的 ， 对 去 术 层 次 以 下 的 搜索 树 来 说 ， 有 许多 结果 取决 于 一 榴 
棋子 的 位 置 。 


1. 有 些 围棋 使 用 9x9 或 13x13 路 棋盘 。 


2. Dou and Geng,“Humans Mourn Loss after Google Is Unmasked as China’s Go Master.” 


通过 抽样 走 子 来 建立 直觉 


我 第 一 次 下 围棋 十 在 大 学 里 和 一 个 会 下 棋 的 朋友 玩 儿 。 他 给 我 的 
建议 是 :“ 把 这 个 程序 下 载 到 你 的 电脑 上 ， 然 后 快速 地 和 电脑 下 几 副 。 
一 开始 你 甚至 不 用 天 心目 己 下 得 是 好 是 坏 。 你 只 需 多 下 几 盘 ， 直 到 你 
对 围棋 的 棋 理 建立 起 直觉 。” 


我 听从 了 他 的 建议 ， 很 快 便 发 现 仅仅 知道 规则 十 不 够 的 。 昌 然 我 
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识 里 的 模式 匹配 ， 这 种 直觉 难以 言 表 : 把 棋子 下 在 远离 棋盘 边缘 和 对 
手 棋 子 的 地 方 ， 但 也 不 能 太 远 等 。 这 给 我 们 市 来 了 用 计算 机 算法 玩 围 
棋 的 一 个 关键 问题 : 我 们 如 何 为 评价 函数 选取 足够 丰富 的 特征 来 充分 
捕捉 人 类 的 直觉 ? 不 辛 的 是 ， 我 们 很 快 整 会 看 到 ， 即 使 一 个 很 好 的 评 
价 函 数 也 不 足以 对 搜索 树 进行 足够 的 修 毅 。 因 此 ， 让 我 们 直接 转向 我 
们 最 终 要 关心 的 问题 : AlphaGo 如 何 遍 历 它 的 搜索 树 ? 


AlphaGo 选 择 着 法 的 策略 育 后 的 粗略 直觉 有 点 像 我 的 大 学 朋友 给 
我 的 建议 : 快速 下 很 多 盘 棋 ， 建 立 起 一 种 直觉 。 每 次 轮 到 AlphaGo 走 
棋 时 ， 它 都 会 从 当前 的 棋盘 局 面 开 始 模拟 一 系列 棋局 。 它 在 其 硅 基 大 
脑 的 想象 中 下 每 一 盘 棋 ， 在 搜索 树 中 次 入 挖掘 一 条 路 径 ， 直 到 这 僵 假 
想 的 棋局 结束 。 在 下 完 这 一 假想 的 棋局 后 ， 程 序 吏 会 知道 棋局 的 胜 负 
结果 。 程 序 假想 的 棋局 几乎 不 可 能 成 为 实战 进程 ， 但 这 并 不 重要 。 重 
要 的 是 ，AlphaGo 可 以 成 千 上 万 次 地 重复 相同 的 事情 ， 以 此 建立 一 种 
直觉 来 决定 下 一 步 棋 的 走 法 。 


为 了 建立 这 种 直觉 ，AlphaGo 将 它 假想 的 棋局 的 胜 负 统计 数据 推 
到 搜索 树 的 最 高 层次 ， 那 里 存储 了 从 当前 局 面 开 始 选择 不 同 着 法 后 的 


胜 负 次 数 。 一 旦 推 福 了 足够 多 的 棋局 ， 它 就 会 拥有 关于 下 一 步 棋 应 该 
走 在 哪里 的 感觉 ， 而 这 种 感觉 是 更 好 地 基于 数据 而 产生 的 。[ 由 ) 


你 可 以 在 图 15.2 (a) 和 图 15.2 (b) 中 看 到 这 种 抽样 方法 的 示例 。 
在 图 15.2 (a) 中 ，AlphaGo 推 演 了 一 盘 棋 ， 一 直到 树 的 底部 。 然 后 ， 
它 会 查看 哪个 玩家 会 辜 得 棋局 ， 并 将 胜 人 负 信息 发 送 回 搜索 树 的 项 部 ， 
在 那里 记录 胜 人 负 统 计数 据 。 假 设 这 棵 树 有 50 层 。 如 图 所 示 ， 树 的 分 支 
因子 为 2， 那 么 树 的 最 底部 大 约 有 1000 万 亿 种 状态 。 (请 记 住 ， 围 棋 搜 
索 树 要 比 这 张 图 大 许多 个 数量 级 。) 


AlphaGo 的 难点 在 于 模拟 实战 棋局 。 它 必须 预测 出 目 己 和 对 手 每 
个 回合 可 能 走 的 着 法 。 它 不 能 完全 依靠 随机 抽样 走 子 。( 思 用 随机 抽样 
走 子 推演 的 棋局 胜 负 统 计数 据 ， 对 预测 真实 棋局 的 结 采 并 不 是 很 有 
用 。 相 反 ，AlphaGo 需 要 一 种 方法 来 预测 职业 棋 手 会 选择 哪些 着 法 。 


AlphaGo 如 何 能 够 做 到 这 一 点 ? 事实 上 ，DeepMind 对 它 的 雅 达 利 
游戏 智能 体 使 用 了 相同 的 方法 ， 以 此 预测 它 的 行动 ， 对 此 你 可 能 不 会 
感到 惊讶 。 每 当 AlphaGo 需 要 模拟 棋局 时 ， 它 会 一 步 接 一 步 地 预测 每 
个 玩家 可 能 选择 的 着 法 ， 预 测 在 对 茎 过 程 中 玩家 在 棋 一 上 落下 的 假想 
棋子 。 每 当 需 要 在 推演 棋局 的 过 程 中 规划 一 步 棋 时 ， 它 就 用 输入 了 棋 
盘 和 假想 棋子 的 神经 网 络 来 做 决定 。 


图 15.2 围棋 搜索 树 中 的 一 个 模拟 棋局 的 例子 ， 可 用 作 走 子 决策 中 的 一 个 抽样 。 (a) 抽样 棋局 
会 一 直 推 演 到 棋局 结束 。 (b) 棋局 结束 时 AlphaGo 便 可 知道 胜 负 结果 ， 胜 负 信息 通过 搜索 树 
被 发 送 到 顶部 。 抽 样 棋局 有 时 被 称 为 “ 走 子 演算 ” 


我 们 把 这 个 神经 网 络 称 为 AlphaGo 的 走 子 预 测 网 络 。( 电 这 个 走 子 
预测 网 络 与 DeepMind 用 于 玩 雅 达 利 游戏 的 网 络 非常 相似 ， 它 们 都 使 用 
很 多 卷 积 层 。 但 是 二 者 的 网 络 以 及 二 者 的 智能 体 使 用 网 络 的 方式 有 一 
些 重要 的 不 同 。 


别 筷 了 ， 雅 达 利 游戏 网 络 是 非常 通用 的 。DeepMind 不 能 将 任何 特 
定 于 游戏 的 想法 构建 到 网 络 结构 中 ， 因 为 网 络 需 要 玩 许 多 不 同 的 雅 达 
利 游戏 。 它 唯一 的 输入 是 屏幕 上 每 个 像素 的 红 、 绿 、 赣 数值 ， 以 及 屏 
幕 上 显示 的 最 近 几 帧 的 像素 值 。 


男 一 方面 ，AlphaGo 的 走 子 预测 网 络 是 专门 为 下 围棋 设计 的 。 它 
有 很 多 特定 于 围棋 的 逻辑 ， 其 中 大 部 分 逻辑 的 形式 都 表现 为 DeepMind 


创建 的 总 结 棋 手 行 棋 方 式 的 特征 库 。AlphaGo 的 一 个 版 本 回 其 神经 网 
络 馈 入 了 多 达 48 个 棋 强 副本 〈 被 称 为 "特征 平面 ") 作为 输入 ， 每 个 棋 
盘 副 本 提供 了 关于 棋盘 上 各 类 局 面 的 不 同 信 息 ， 也 避 ® 古 不 同 的 特征 。 


其 中 几 个 特征 平面 总 结 了 盘面 的 状态 ， 一 个 平面 表示 每 个 位 置 上 
是 否 有 黑子 ， 另 一 个 平面 表示 每 个 位 置 上 是 否 有 白 子 等 。 一 些 特 征 平 
面 传达 了 游戏 规则 ， 在 这 里 落 子 是 否 是 玩家 的 合法 着 法 ? 在 这 里 落 子 
会 吃 掉 对 手 多 少 枚 棋子 ? 剩余 的 许多 特征 平面 提供 了 关于 局 面 的 自 定 
义 的 战术 特征 ， 尽 管 它们 很 简单 。 这 些 特 征 通 常会 捕捉 到 与 好 棋 相 关 
的 非常 简单 的 直觉 ， 这 枚 棋子 周围 有 多 少 个 空白 交叉 点 ? 棋子 放 在 这 
里 有 多 少 个 回合 了 ? © ( 我 们 稍 后 会 看 到 ， 最 新 版 本 的 AlphaGo 不 需 
要 这 么 多 人 工 创建 的 特征 。) 


AlphaGo 的 走 子 预 测 网 络 的 架构 也 与 雅 达 利 游戏 网 络 不 同 。 首 
先 ，AlphaGo 的 网 络 要 深 得 多 ， 它 有 13 层 ， 深 度 几 乎 是 雅 达 利 游戏 网 
络 的 三 售 。 昌 然 深度 更 深 ,但 它 在 最 后 缺少 一 个 全 连接 隐藏 层 。 除 了 
输出 层 之 外 ， 它 的 所 有 隐藏 层 都 是 卷 积 层 。 


几 章 之 前 ， 我 们 了 解 到 卷 积 层 有 一 组 简单 的 模式 匹配 分 类 器 ， 这 
被 称 为 过 滤器 ， 它 们 会 遍历 前 面 层 次 上 的 一 片 片 神经 元 小 区 域 。( 央 这 
些 过 滤器 是 神奇 的 “物体 探测 器 *， 可 以 识别 前 一 层 中 有 趣 的 模式 ， 这 
些 模 式 在 网 络 进行 预测 时 非常 有 用 。 这 些 卷 积 层 中 的 每 一 个 都 标识 了 
在 输入 平面 中 出 现 的 有 趣事 物 的 位 置 。AlphaGo 的 第 一 个 卷 积 层 使 用 
了 大 约 200 个 独立 的 5x5 过 滤器 。 换 言 之 ， 这 一 层 在 特征 平面 上 查找 
200 种 不 同 的 模式 ， 这 些 模 式 会 表明 棋局 中 正在 发 生 一 些 有 趣 的 事情 。 
每 当 过 滤器 在 特征 平面 的 某 个 位 置 发 现 一 个 有 趣 的 模式 时 ， 下 一 层 中 
与 之 对 应 的 神经 元 就 会 亮 起 。 


随后 ，AlphaGo 的 走 子 预测 网 络 中 的 后 续 层 应 用 它们 目 己 的 过 滤 
器 来 搜索 上 一 层 的 过 滤器 的 组 合 。( 电 就 像 图 像 分 类 神经 网 络 中 的 卷 积 


层 可 以 找到 毛皮 、 有 眼睛 或 人 脸 之 类 的 复 洒 像素 模式 一 样 ，AlphaGo 的 
深度 卷 积 层 也 可 以 在 棋盘 上 找到 棋子 的 重要 模式 ， 这 些 模式 正 是 人 类 
高 手 可 能 会 寻找 的 。 当 走 子 预测 网 络 运行 时 ， 它 的 神经 元 会 逐 层 地 亮 
起 来 ， 网 络 深 处 的 层 会 发 现 越 来 越 复杂 的 棋 形 。 


AlphaGo 的 走 子 预测 网 络 在 输出 形式 上 也 不 同 于 雅 达 利 游戏 网 
络 。 还 记得 吗 ， 雅 达 利 网 络 会 预测 智能 体 选 择 不 同 动作 时 期 望 的 未 来 
交 励 ， 而 且 雅 达 利 游戏 智能 体 仅 选 择期 望 奖励 最 高 的 动作 。AlphaGo 
的 走 子 预测 网 络 会 对 每 个 玩家 可 能 采用 的 着 法 生成 一 个 概率 分 布 。 然 
后 AlphaGo 使 用 这 个 网 络 的 输出 ， 束 好 像 它 是 一 个 加 权 的 仍 子 一 样 。 
当 它 假想 棋局 的 剩余 部 分 在 它 的 一 个 模拟 中 推演 时 ， 它 会 掷 出 这 个 加 
权 骨 子 来 选择 它 的 下 一 步 ， 更 频繁 地 选择 那些 走 子 预测 网 络 认为 应 该 
采用 的 着 法 。 


DeepMind 训 练 AlphaGo 的 走 子 预测 网络 时 ， 使 用 了 互联 网 围棋 服 
务 器 上 人 类 高 手 棋谱 中 的 3000 万 步 棋 。 人 后 当 DeepMind 完 成 走 子 预测 网 
络 的 训练 时 ， 它 已 经 能 够 非常 准确 地 预测 人 类 的 行 棋 ， 在 一 盘 棋 中 ， 
玩家 必须 从 大 约 250 个 可 能 的 选 点 中 进行 选择 ，AlphaGo 的 走 子 预测 网 
络 能 够 以 相当 可 观 的 57% 的 准确 率 预测 玩家 的 选 点 。( 电 这 并 不 完美 ， 
所 以 AlphaGo 对 于 对 手 可 能 采用 的 着 法 仍 有 很 多 不 确定 性 。 但 是 ， 通 
过 在 假想 中 推演 棋局 的 时 候 对 玩家 的 着 法 进行 抽样 ，AlphaGo 可 能 是 
合理 的 ， 因 为 即使 职业 棋 手 也 不 能 完全 准确 地 预测 他 们 的 对 手 会 选择 
什么 样 的 着 法 。 抽 样 将 使 AlphaGo 面 对 每 个 玩家 着 法 的 不 确定 因素 做 
出 更 好 的 决策 。 


虽然 走 子 预测 网 络 如 此 精确 ， 但 它 慢 得 不 切实 际 。DeepMind 发 
现 ， 对 网 络 的 完整 评估 大 约 需 要 3 毫秒 。( 尘 这 听 上 去 或 许 很 快 ， 但 一 
般 而 言 ， 一 盘 棋 大 约 需要 150 步 。 这 意味 着 模拟 一 盘 棋 可 能 需要 将 近 半 
秒 钟 的 时 间 ， 也 就 是 说 ， 生 成 需要 的 数 千 个 样本 中 的 一 个 样本 就 要 花 
费 将 近 半 秒 钟 的 时 间 。 这 就 太 慢 了 。 例 如 ， 在 AlphaGo 上 运行 的 一 系 


列 实验 中 ，DeepMind 只 给 AlphaGo5 秒 的 时 间 来 计算 P2: 
AlphaGo 如 何在 运行 精确 模拟 的 同时 足够 快 ， 让 它 走 一 步 棋 不 用 花 几 
个 小 时 来 计算 ? 


AlphaGo 还 面临 着 一 个 更 大 的 问题 。 如 琳 走 子 预 测 网 络 不 完美 
( 它 的 确 不 完美 ) ， 那 么 它 就 无 法 保证 AlphaGo 在 其 搜索 树 顶 部 收集 
的 胜 负 统计 数据 会 告诉 它 走 哪 一 步 最 好 。 即 使 AlphaGo 能 够 在 模拟 中 
收集 到 尽 可 能 多 的 数据 ， 情 况 也 是 如 此 。 即 使 它 可 以 在 上 甩 眼 之 间 进 行 
无 限 次 模拟 ， 它 仍然 可 能 永远 不 会 知道 哪 步 棋 最 好 。 这 是 AlphaGo 在 
收集 和 使 用 统计 数据 的 过 程 中 隐藏 的 一 个 微妙 而 听 重 的 漏洞 导致 的 ， 
至 少 从 我 目前 为 止 的 解释 来 看 是 这 样 的 。 事 实 上 ，AlphaGo 至 今 还 没 
有 使 用 我 刚才 描述 的 算法 。AlphaGo 需 要 使 用 这 种 算法 的 改进 版 本 ， 
使 其 能 够 在 速度 和 精度 方面 不 受制 于 其 缓慢 的 走 子 预测 网 络 。 
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神 之 一 手 


以 大 眼睛 狐狸 为 头像 的 围棋 玩家 Master 在 网 上 神秘 亮相 ， 这 并 不 
是 AlphaGo 第 一 次 登 上 新 闻 头 条 。 当 它 在 五 番 棋 比赛 中 5 比 0 战胜 欧洲 
冠军 攀 应 时 ， 它 就 在 计算 机 围棋 界 声 名 远扬 ，2016 年 ， 它 在 五 番 棋 比 
赛 中 4 比 1 战胜 了 世界 冠军 李 世 石 ， 再 次 登 上 全 球 新 闻 头 条 。( 周 


AlphaGo 与 李 世 石 的 这 场 五 番 棋 比赛 在 李 世 石 的 祖国 韩国 举行 ， 
韩国 约 有 800 万 名 围棋 玩家 。( 归 这 场 五 番 棋 比赛 既 痛苦 又 美好 KK 
西洋 月 刊 》 的 克里斯托弗 :莫耶 (Christopher Moyer) 在 其 中 一 盘 对 局 
期 间 这 样 描述 了 当时 的 氛围 。 


在 第 二 盘 棋 中 ， 李 世 石 表现 出 不 同 的 风格 ， 行 棋 变 得 更 加 谨慎 。 
他 等 待 一 切 可 以 利用 的 机 会 ， 但 AlphaGo 继 续 给 人 惊喜 。 第 37 手 ， 
AlphaGo 迹 出 了 令 人 意 想不到 的 一 步 棋 ， 在 棋盘 右上 方 “ 尖 冲 *" 生 。 这 
步 棋 在 职业 棋 战 中 是 看 不 到 的 ， 但 它 的 高 明之 处 立即 展现 出 来 。 棋 手 
BEERA: “我 从 未 见 过 人 类 下 出 这 步 棋 。 太 美 了 。” 


SHEAR? 他 起 身 走 出 了 房间 。 人 们 暂时 还 不 清楚 发 生 了 什么 ， 
但 随后 ， 他 重新 进入 对 局 室 ， 重 新 平静 下 来 坐 定 ， 弈 出 了 他 的 应 手 。 
接 下 来 的 棋 比 第 一 局 要 激烈 得 多 ， 但 结果 还 是 一 样 。 弈 至 第 211 手 ， 李 
Un min o © 


AlphaGo 奔 出 这 手 “ 尖 冲 ” 后 ， 李 世 石 走出 了 房间 。 回 来 再 看 这 步 
棋 ， 他 花 了 将 近 15 分 钟 才 恢 复 了 状态 。 包 
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五 局 三 胜 的 比赛 。 作 为 人 类 对 抗 硅 基 机 器 的 代表 ， 李 世 石 在 这 盘 棋 结 


束 后 的 新 闻 发 布 会 上 对 全 世界 说 道 : “我 很 抱歉 没 能 满足 很 多 人 的 期 
待 ， 我 觉得 很 无 力 。"* 嘲 就此， 谷歌 赢得 了 100 万 美元 的 奖金 ， 并 将 这 
笔 钱 捐 给 了 慈善 机 构 。 希 望 挽回 尊严 的 李 世 石和 AlphaGo 又 下 了 两 
盘 。 在 接 下 来 的 第 四 盘 中 ， 意 想不到 的 事情 发 生 了 。 


第 78 手 ， 李 世 石 在 思考 了 30 分 钟 后 ， 把 棋子 落 在 了 AlphaGo 的 两 
枚 棋子 之 间 ， 这 一 手 叫 “ 挖 "， 如 图 15.3 (a) 所 示 。 这 一 手 和 AlphaGo 
的 “ 尖 冲 ”同样 精彩 ， 同 样 出 人 意料 。 李 世 石 的 这 一 手 被 围棋 爱好 者 称 
为 “ 神 之 一 手 ”。( 央 正如 《大 西洋 月 刊 》 的 克里斯托弗 .莫耶 和 《 连 线 》 
REILE AER (Cade Metz) 看 到 的 那样 ， 在 李 世 石 弈 出 “ 神 之 一 
手 * 后 ，AlphaGo 下 出 了 灾难 性 的 一 手 。 我 们 将 这 一 手 称 为 “< 大 象 之 
手 "， 如 图 15.3 (b) 所 示 。( 时 很 有 可 能 ，AlphaGo 此 时 根本 没有 任何 
好 的 着 法 可 下 ， 而 且 它 下 的 任何 着 法 都 可 能 是 灾难 性 着 法 ， 但 结果 都 
一 样 。 几 分 钟 后 ， 当 AlphaGo 再 进行 模拟 时 ， 它 对 这 盘 棋 胜率 的 估计 
直线 下 降 。 最 终 ， 李 世 石 启 了 第 四 盘 棋 ， 韩 国 媒体 欢呼 管 跃 。 在 赛 后 
的 新 闻 发 布 会 上 L， 李 世 石 对 媒体 说 道 : “因为 我 输 了 三 盘 才 赢 了 这 一 
nen, HORUM 
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图 15.3 李 世 石 在 同 AlphaGo 的 五 番 棋 比赛 的 第 四 强 中 穿 出 “ 神 之 一 手 *"， 即 图 (a) 中 的 L11。 随 
后 ，AlphaGo 弈 出 “大 象 之 手 ”>， 即 图 (b) 中 的 K10。 棋 谱 请 见 https://gogameguru.com/lee- 
sedol-defeats-alphago-masterful-comeback-game-4 


在 第 四 盘 棋 后 ，AlphaGo 的 创始 人 分 析 了 这 几 个 回合 中 发 生 的 事 
情 。 他 们 发 现 ，AlphaGo 认 为 李 世 石 下 出 “ 神 之 一 手 * 的 可 能 性 太 小 ， 所 
以 没有 对 搜索 树 的 那个 分 支 进行 足够 详细 的 探索 。AlphaGo 认 为 李 世 
石 下 出 这 手 棋 的 概率 只 有 万 分 之 一 。 人 四 


1. Cade Metz,“Why the Final Game Between AlphaGo and Lee Sedol Is Such aBig Deal for 
Humanity,” Wired,March14,2016;Christopher Moyer,“How Google's AlphaGo Beat aGo 
World Champion,” The Atlantic, March28,2016. 

2: Cade  Metz*In Two  Moves,AlphaGo and Lee Sedol Redefined the 
Future,” Wired,March16,2016. 


3. — 尖 冲 ， 围 棋 术 语 ， 指 在 对 方 棋子 的 对 角 线 上 方 走 棋 。- 译 者 注 


4. Moyer, “How Google's AlphaGo Beat aGo World Champion." 
5. Metz, “In Two Moves,AlphaGo and Lee Sedol Redefined the Future.” 
6. Moyer, “How Google's AlphaGo Beat aGo World Champion.” 


7. 另 一 种 译 法 是 “God's Touch” (上帝 的 触摸 ) ° Metz,“In Two Moves,AlphaGo and Lee 
Sedol Redefined the Future.” 


8. Moyer,“How Google's AlphaGo Beat aGo World Champion”;Metz,“Why the Final Game 
Between AlphaGo and Lee Sedol Is Such aBig Deal for Humanity.” 
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10. Metz, “In Two Moves,AlphaGo and Lee Sedol Redefined the Future.” 


蒙特 卡 洛 树 搜索 


在 新 千年 的 第 一 个 10 年 里 ， 有 关 AlphaGo 如 何 模拟 棋局 的 算法 来 
到 了 一 个 转折 点 。 一 种 被 称 为 蒙特 卡 洛 树 搜索 (Monte Carlo Tree 
Search， 下 文 简 称 MCTS) 的 算法 导致 了 计算 机 围棋 范式 的 转变 。 如 果 
你 曾经 看 过 计算 机 围棋 程序 的 统计 清单 ， 那 么 这 个 清单 很 可 能 被 分 成 
两 组 : MCTS 之 前 一 组 ，MCTS 之 后 一 组 。MCTS 是 AlphaGo 解 决 其 走 
子 预测 缓慢 问题 和 恶劣 的 错误 走 子 问题 的 方法 。 


MCTS 改 进 了 我 们 在 本 章 前 面 讲述 的 模拟 棋局 的 方式 。 正 如 我 们 
ZEA SIA, EEE BE ABE NS HERE NE, UC SRR PB EE ET BE 
终 获 胜 的 统计 信息 。 然 而 ， 与 我 们 之 前 看 到 的 模拟 算法 不 同 的 是 ， 它 
每 次 模拟 棋局 时 都 会 经 历 两 个 不 同 的 阶段 。 


第 一 阶段 是 它 的 慢 速 走 子 演算 阶段 ，AlphaGo 像 先前 一 样 通过 从 
搜索 树 顶 部 附近 的 分 文 下 降 ， 运 行 慢 速 走 子 预测 神经 网 络 来 找到 
AlphaGo 或 其 对 手 未 来 走出 某 步 棋 的 概率 ， 然 后 掷 出 市 有 这 些 概率 的 
加 权 骨 子 来 选择 要 走 的 棋 ， 如 图 15.4 所 示 。 这 与 我 在 前 一 节 中 描述 的 
算法 原理 相同 。 


快速 走 子 演算 阶段 


图 15.4 慢 速 走 子 演算 阶段 和 快速 走 了 演算 阶段 之 间 的 边 赛 。 慢 速 走 子 预测 网 络 和 寺前 模拟 的 
胜 负 统计 信息 ， 是 用 于 在 慢 速 走 子 演算 阶段 选择 着 法 的 。 当 棋局 到 达 快 速 走 子 演算 阶段 时 ， 
在 边界 状态 上 会 运行 一 评价 画 数 ， 并 使 用 快速 走 子 预测 网 络 为 剩余 的 模拟 选择 着 法 。 随 
着 AlphaGo 运 行 更 多 次 模拟 ， 并 对 树 顶 部 附近 的 状态 变 得 更 有 信心 ， 它 会 扩展 慢 速 走 子 演算 阶 
段 的 范围 ， 把 最 有 希望 的 状态 包含 进来 


一 旦 AlphaGo 的 MCTS 算 法 延伸 到 搜索 树 足 够 远 的 位 置 ， 它 就 会 用 
两 种 不 同 的 方式 评估 棋局 。 首 和 完 ， 它 用 神经 网 络 评价 画 数 对 棋局 进行 
评 佑 ， 预 测 AlphaGo 在 这 个 状态 下 获胜 的 概率 。 然 后 (更 确切 地 说 是 
同时 ) ， 它 执行 非常 快速 的 走 子 演算 来 模拟 棋局 的 剩余 部 分 


AlphaGo 用 于 评价 函数 的 神经 网 络 与 慢 速 走 子 预测 神经 网 络 几乎 
相同 ， 只 是 它 的 末端 十 一 个 额外 的 、 隐 藏 的 全 连接 层 ， 束 像 雅 达 利 游 
戏 网 络 一 样 。 接 下 来 古 一 个 输出 神经 元 ， 如 果 在 那个 局 面 AlphaGo 有 
很 高 的 获胜 概率 ， 那 么 输出 神经 元 束 会 完 起 。 


当 AlphaGo 运 行 这 个 评价 函数 时 ， 它 还 会 对 棋局 的 剩余 部 分 进行 
非常 快速 的 模拟 。 e ATETEA AHY HAIR, 但 它 为 AlphaGo 提 
供 了 对 棋局 剩余 部 分 推演 方式 进行 独立 评估 的 能 


执行 快速 走 子 演 算 的 最 简单 方法 是 随机 选择 走 子 。 实 际 上 ， 这 有 
时 是 通过 MCTS 完 成 的 ， 但 围棋 的 搜索 树 太 大 了 ， 因 此 AlphaGo 需 要 人 花 
费 太 长 时 间 才 能 收集 到 准确 的 胜 负 统 计数 据 。 此 外 ，DeepMind 在 一 次 
实验 中 发 现 ， 随 机 选择 走 子 在 实践 中 并 没有 很 好 地 发 挥 作 用 。 相 反 ，， 
出 乎 意料 的 是 ，AlphaGo 使 用 了 另 一 个 神经 网 络 在 这 个 快速 走 子 演 算 
阶段 选择 走 子 。 这 个 快速 走 子 预测 网 络 是 慢 速 预 测 网 络 的 轻 量 级 版 
本 。 它 具有 与 慢 速 走 子 预测 网 络 相同 的 架构 ， 但 少 了 一 些 需 要 耗费 时 
间 计 算 的 输入 特征 。 如 果 没 有 这 些 特征 ， 网 络 可 以 在 大 约 二 百 万 分 之 
一 秒 的 时 间 内 预测 走 子 。 这 种 加 速 的 代价 是 ， 在 预测 职业 棋 手 的 走 子 
时 ， 人 快速 走 子 预测 网 络 的 准确 率 约 为 慢 速 网 络 的 一 半 。 


AlphaGo 评 价 函 数 的 这 两 个 部 分 使 它 能 够 足够 快 地 运行 ， 以 此 解 
决 AlphaGo 所 面临 的 速度 问题 。 但 这 并 没有 弥补 潜伏 在 AlphaGo 选 择 兰 
法 过 程 中 的 挛 重 漏洞 。 


MCTS 的 另 一 个 特性 解决 了 这 个 漏洞 ， AlphaGo 总 是 选择 靠近 搜索 
树 顶 部 的 着 法 。 除 了 使 用 慢 速 走 子 预测 网 络 对 树 顶 附近 的 着 法 进行 抽 
样 外 ，AlphaGo 开 始 偏爱 慢 速 走 子 演算 阶段 的 着 法 ， 这 是 基于 它 到 目 
前 为 止 从 模拟 的 棋局 中 学 习 到 的 不 错 的 着 法 。 这 样 ， 即 使 AlphaGo 的 
走 子 预 测 网 络 在 某 些 方面 始终 是 错误 的 (即便 AlphaGo 用 它 的 网 络 选 
择 了 随机 的 着 法 ) ，AlphaGo 最 终 也 能 学 会 走出 最 佳 着 法 ， 因 为 它 最 
终 会 从 它 的 模拟 结果 中 得 知 哪些 着 法 是 好 棋 。( 沁 


当 轮 到 AlphaGo 走 棋 来 应 对 它 的 对 手 时 ， 它 通过 在 搜索 树 的 项 
选择 最 大 数量 的 抽样 来 决定 它 的 着 法 。 因 为 AlphaGo 在 模拟 过 程 中 倾 
向 于 选择 能 够 让 它 赢 棋 的 走 法 ， 所 以 它 选择 的 走 法 往往 是 高 质量 的 ， 
并 且 它 对 此 理解 得 非常 透彻 。 伺 


MCTS 有 时 会 假设 一 个 固定 的 时 间 预 算 ， 也 融 是 六 ， 它 假设 有 一 
段 固定 的 时 间 用 来 行 棋 ， 并 且 它 会 尽 可 能 长 时 间 地 运行 它 的 模拟 ， 模 


拟 一 盘 又 一 盘 棋 ， 直 到 预算 的 时 间 耗 尽 为 止 。 这 在 每 个 玩家 每 个 回合 
的 落 子 时 间 有 限时 很 有 用 : AlphaGo 可 以 运行 尽 可 能 多 的 模拟 ， 直 到 
它 的 时 间 用 完 为 止 。 然 后 ， 当 AlphaGo 落 子 后 ， 它 的 对 手 跟着 落 子 ， 
此 时 AlphaGo 吏 会 重复 使 用 它 通 过 搜索 树 的 那 条 路 径 建立 的 统计 数 
据 。 


1. Silver et al.,“Mastering the Game of Go with Deep Neural Networks and Tree Search.” 


2. Silver et al.,“Mastering the Game of Go with Deep Neural Networks and Tree Search." 


单 臂 老虎 机 


AlphaGo 能 够 尽 可 能 长 时 间 地 运行 模拟 ， 这 与 MCTS 如 此 卓有成效 
的 原因 密切 相关 。 人 工 智能 研究 人 员 对 MCTS 这 类 方法 进行 了 一 段 时 
闻 的 研究 ， 但 很 难 找到 一 种 方法 来 保证 该 算法 在 继续 运行 更 多 次 模拟 
之 后 最 终 会 找到 可 能 的 最 佳 着 法 。 相 反 ， 无 论 算法 进行 了 多 长 时 间 的 
处 理 ， 这 些 早期 的 算法 仍然 可 能 产生 非 最 优 的 着 法 。 


让 MCTS 突 破 这 一 局 限 的 关键 在 于 探索 和 开发 之 间 的 微妙 乎 衡 ， 
这 征 人 工 智能 研究 人 员 的 一 个 众所周知 的 权衡 。 假 设 你 有 100 只 手臂 ， 
每 只 手臂 都 可 以 拉动 赌场 里 不 同 老 虎 机 的 操纵 杆 。 因 为 你 需要 跟 蹊 你 
的 手臂 ， 所 以 你 可 以 每 10 秒 钟 选择 一 台 老 虎 机 拉动 它 的 操纵 杆 。 这 家 
赌场 很 特别 ， 不 仅 因为 它 迎 合 了 长 着 100 只 手臂 的 顾客 的 需求 ， 还 因为 
告 说 它 的 一 些 老虎 机 吐出 的 平均 金额 超过 了 收入 。 


你 的 目标 是 在 夜晚 结束 前 从 这 个 赌场 恬 走 更 多 的 钱 回 家 。 因 此 ， 

当 你 拉 这 些 操纵 杆 时 ， 你 可 能 会 记录 每 台 老 虎 机 吐出 的 奖金 : IGS 
元 ， 那 台 0 美 元 ， 还 有 一 侣 100 半 元。 棘手 的 一 点 是 ， 每 次 拉动 每 台 机 
妖 的 操纵 杆 它 都 会 吐出 不 同 数额 的 奖金 ， 而 你 一 开始 并 不 知道 这 些 机 
aw c UAE s — Gi Las RIBERA PER 10590, Maa Las REUK 
拉 操 纵 杆 吐出 的 钱 数 差异 很 大 ， 但 平均 值 可 能 是 100 美 元 。 此 时 你 最 好 
拉 第 二 台 机 器 的 操纵 杆 ， 而 不 古 第 一 台 ， 即 使 你 第 一 次 拉 它 时 它 没 吐 
出 钱 来 ， 你 也 需要 足够 多 次 地 去 尝试 才能 知道 它 的 收益 很 好 。 机 器 学 
习 人 研究 人 员 对 这 一 问题 进行 了 广泛 的 研究 ， 他 们 把 这 个 问题 称 为 “多 臂 
老虎 机 ”问题 。 


在 什么 情况 下 你 应 该 放弃 大 多 数 机 器 并 专注 于 少数 几 台 机 器 ? 你 
会 满足 于 在 晚上 剩 下 的 时 间 里 只 拉 一 台 机 妖 的 操纵 杆 吗 ? 你 可 以 直观 


HWRE, BPA Siler BS IK, HALES MRE ES 
Be, MAE T AENA, PRA EAP Te TRUS it BE AL o 
但 是 ， 要 将 这 种 直觉 转化 为 计算 机 可 以 遵循 的 具体 算法 ， 同 时 确保 它 
具有 正确 的 统计 特性 ， 则 有 点 琼 手 。 


在 MCTS 出 现 之 前 ， 先 前 的 树 抽样 方法 也 面临 着 同样 的 困境 : 在 
运行 模拟 时 ， 它 们 需要 充分 探索 游戏 树 ， 以 获得 哪 种 着 法 最 好 的 准确 
感觉 。MCTS 的 突破 出 现在 2006 年 左右 ， 当 时 研究 人 员 发 现 了 一 种 改 
进 树 抽样 的 方法 ， 以 确保 智能 体 最 终 能 够 找到 最 佳 着 法 ， 前 提 是 它 已 
经 运行 了 足够 多 的 模拟 。 这 就 是 随机 走 子 演算 策略 实际 上 可 以 用 于 
MCTS 的 原因 : 使 用 MCTS 的 智能 体 在 下 过 更 多 盘 棋 后 开始 使 用 搜索 树 
顶部 附近 的 胜 负 结果 统计 信息 。 只 要 它 进行 了 充分 的 实验 ， 了 解 了 最 


好 的 着 法 ，MCTS 会 最 终 告诉 智能 体 可 能 的 最 佳 着 法 。 四 | 


这 种 抽样 方法 是 如 何 奏 效 的 ? 在 上 文中 ， 我 把 这 个 问题 搁置 在 一 
边 ， 说 道 : “一旦 AlphaGo 的 MCTS 算 法 延伸 到 搜索 树 足够 远 的 位 置 ， 
它 就 会 用 两 种 不 同 的 方式 评估 棋局 。”MCTS 中 的 关键 决策 是 智能 体 决 
定 在 何 处 切换 到 快速 走 子 演 算 策 略 ， 以 及 在 此 之 前 如 何 对 它 的 着 法 进 
行 抽样 。 


还 记得 吗 ， 当 AlphaGo 在 搜索 树 的 高 处 运行 其 闪 代 时 ， 它 在 靠近 
搜索 树 顶 部 的 慢 速 走 子 演算 阶段 会 使 用 目前 为 止 收集 的 胜 负 统计 信 
息 ， 以 此 调整 着 法 。 但 它 也 需要 花 些 时 间 探 索 其 他 着 法 ， 就 像 你 需要 
在 每 台 老虎 机 上 花 点 时 间 尝 试 一 下 ， 然 后 才 决 定 转向 最 好 的 老虎 机 一 
样 。AlphaGo 的 走 子 选择 算法 ( 即 它 在 搜索 树 的 顶端 选择 走 子 的 方 
法 ) 被 设计 成 在 没有 太 多 数据 时 更 偏爱 先 走 子 ， 它 使 用 了 一 个 类 似 于 
2006 年 提出 的 一 种 MCTS 的 变换 公式 。( 针 


AlphaGo 的 研究 人 员 对 MCTS 做 出 的 男 一 个 关键 决定 是 ， 它 在 何 处 
切换 到 快速 走 子 演算 策略 。 随 着 AlphaGo 的 树 搜 索 泪 法 收集 到 更 多 证 
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推进 边界 ， 以 便 在 切换 到 快速 走 子 演算 策略 之 前 可 以 开始 沿 该 路 径 进 
行 更 深入 的 搜索 。 在 概念 上 ， 这 很 像 许 峰 雄 和 他 的 团队 在 下 国际 象棋 
的 “深蓝 ”中 加 入 的 单 步 延 伸 。 请 记 住 ， 这 些 单 步 延伸 让 “深蓝 ”能 够 沿 
着 让 玩家 非常 有 希望 获胜 的 一 系列 着 法 深入 树 中 搜索 ， 这 些 着 法 玩家 
几乎 肯定 会 走 ， 比 如 保卫 他 们 的 国王 。 当 AlphaGo 看 到 任何 一 个 玩家 
的 一 系列 有 湾 力 的 走 法 时 ， 它 融会 动态 地 学 习 这 些 单 步 延伸 。 


1. Browne et al.,“A Survey of Monte Carlo Tree Search Methods.” 


2. Browne et al.,“A Survey of Monte Carlo Tree Search Methods.”Silver et al.,“Mastering 
the Game of Go with Deep Neural Networks and Tree Search.” 


AlphaGo 是 否 需 要 如 此 复杂 


值得 思考 的 是 ，AlphaGo 中 的 各 种 设计 决策 是 如 何 对 其 成 功 产 生 
重要 影响 的 。 根 据 我 们 在 其 他 游戏 算法 中 看 到 的 情况 ， 其 中 一 些 可 能 
看 起 来 很 奇怪 。AlphaGo 真 的 需要 如 此 复杂 吗 ? 例如 ， 为 什么 AlphaGo 
还 要 费心 去 模拟 棋局 呢 ? 难道 它 不 能 搜索 到 某 个 固定 的 深度 ， 然 后 仅 
使 用 神经 网 络 评价 画 数 ， 吏 像 * 深 监 " 下 国际 象棋 那样 ? 


别 忘 了 ， 围 棋 的 搜索 树 比 国际 象棋 大 了 好 几 个 数量 级 。 如 果 
AlphaGo 和 追随“ 深蓝” 的 脚步 ， 也 用 自 定义 的 评价 画 数 和 一 些 单 步 延 伸 的 
蛮 力 搜索 ,那么 它 很 可 能 要 么 速度 太 慢 ， 要 么 搜索 得 太 浅 。 另 一 方 
面 ，AlphaGo 在 战胜 樊 应 时 评估 的 局 面 数量 仅仅 是 “深蓝 ”与 加 里 - 卡 斯 
帕 罗 夫 对 局 时 的 千 分 之 一 。( 晤 AlphaGo 的 创建 者 推测 ， 这 是 因为 
AlphaGo 在 搜索 阶段 使 用 慢 速 走 子 预 测 网 络 更 智能 地 选择 了 着 法 ， 而 
且 它 使 用 高 质量 的 评价 画 数 来 评估 这 些 着 法 。 人 多 正如 他 们 推测 的 那 
样 ，AlphaGo 使 用 了 “一 种 可 能 更 接近 人 类 行 棋 方式 的 方法 ”。 


DeepMind 投 入 了 大 量 资源 开发 AlphaGo， 团 队 约 有 20 名 员工 。( 针 
他 们 对 AlphaGo 的 设计 方案 进行 了 广泛 的 实验 ， 而 AlphaGo 的 大 部 分 复 
杂 性 都 是 通过 执行 这 样 或 那样 的 实验 来 证 明 的 。 例 如 ， 当 他 们 决定 在 
卷 积 层 中 使 用 多 少 个 过 滤器 时 ， 他 们 尝试 了 各 种 不 同 的 数字 ， 最 终 发 
现 每 层 使 用 100 或 200 个 过 滤器 效果 最 好 。 


DeepMind 进 行 的 另 一 项 实验 研究 了 在 慢 速 走 子 演 算 阶段 之 后 ， 应 
该 如 何在 搜索 树 的 中 途 对 局 面 进行 评 佑 。 是 否 应 该 使 用 完全 随机 的 快 
速 走 子 演算 ? 是 否 应 该 只 使 用 他 们 的 评价 函数 神经 网 络 ? 或 者 是 否 应 
该 只 用 快速 走 子 预测 网 络 进行 走 子 演算 ? 通过 这 个 实验 ， 他 们 发 现 随 


机 走 子 演算 并 不 是 很 有 效 ， 当 AlphaGo 在 评价 画 数 网 络 和 快速 走 子 预 
测 网 络 之 间 使 用 50/50 混 合 时 ， 效 果 最 好 。( 思 他 们 还 让 AlphaGo 自 我 对 
弈 了 数 百 万 盘 棋 ， 以 产生 更 多 的 数据 来 改进 评价 画 数 神经 网 络 ， 就 像 
特 索 罗 改 进 他 的 双 陆 棋 神 经 网 络 一 样 。 


在 最 初战 胜 攀 磨 和 李 世 石 后 ，DeepMind 继 续 改 进 AlphaGo。 它 的 
一 个 改进 版 本 在 互联 网 上 和 玩家 进行 了 对 奔 ， 这 残 是 我 们 在 本 章 开头 
看 到 的 那个 名 为 Master 的 神秘 玩家 。 到 2017 年 底 ， DeepMind 对 
AlphaGo 进 行 了 几乎 所 有 方面 的 改进 ， 最 终 推 出 了 一 个 名 为 AlphaGo 
Zero (阿尔 法 元 ) 的 版 本 。 它 可 以 在 三 天 (而 不 是 几 个 月 ) 内 进行 训 
练 ， 对 局 时 只 需要 先前 1/10 的 处 理 能 力 。 它 在 对 瑜 曾 经 与 李 世 石 比赛 
的 版 本 时 取得 了 100 战 全 胜 的 战绩 。 就 像 特 索 罗 的 程序 一 样 ， 尽 管 它 从 
零 开 始 学 习 下 棋 ， 但 它 仍然 做 到 了 这 一 切 。 


DeepMind 是 如 何 做 出 这 些 改进 的 ? 一 种 方法 是 结合 过 去 几 年 在 其 
他 领域 发 现 的 卷 积 神经 网 络 的 一 些 改进 ， 包 括 在 层 之 间 添 加 “快捷 * 连 
接 ， 并 改进 训练 网 络 的 方式 。 他 们 还 简化 了 AlphaGo 的 架构 ， 合 并 了 
慢 速 走 子 预 测 网 络 和 评价 画 数 网 络 ， 并 且 仅 使 用 黑 日 棋子 的 位 置 作为 
网 络 的 输入 ， 代 大 了 最 初 的 48 个 特征 平面 。 他 们 充分 提高 了 网 络 的 准 
确 性 ， 从 而 无 须 再 使 用 快速 走 子 演算 : 在 慢 速 走 子 演算 阶段 结束 时 ， 
他 们 只 需 运行 目 己 的 评价 函数 神经 网 络 即 可 。 


1. Browne et al.,“A Survey of Monte Carlo Tree Search Methods."Silver et al.,“Mastering 
the Game of Go with Deep Neural Networks and Tree Search."Silver et al.,“Mastering the 
Game of Go with Deep Neural Networks and Tree Search.” 


2: Browne et al.,“A Survey of Monte Carlo Tree Search Methods."Silver et al.,“Mastering 
the Game of Go with Deep Neural Networks and Tree Search."Silver et al.,“Mastering the 
Game of Go with Deep Neural Networks and Tree Search."Silver et al., "Mastering the Game 
of Go with Deep Neural Networks and Tree Search." 


3. Browne et al.,“A Survey of Monte Carlo Tree Search Methods."Silver et al., "Mastering 
the Game of Go with Deep Neural Networks and Tree Search."Silver et al.,“Mastering the 
Game of Go with Deep Neural Networks and Tree Search."Silver et al. "Mastering the Game 


of Go with Deep Neural Networks and Tree Search.”Silver et al.,“Mastering the Game of Go 
with Deep Neural Networks and Tree Search.” 


4. Christof Koch,“How the Computer Beat the Go Master,” Scientific 
American,March19,2016. 
5. Silver et al.,“Mastering the Game of Go with Deep Neural Networks and Tree Search." 


6. Silver et al.,“Mastering the Game of Go with Deep Neural Networks and Tree Search." 


AlphaGo 的 局 限 


与 雅 达 利 游戏 智能 体 一 样 ，AlphaGo 也 是 专 为 下 围棋 这 项 特定 任 
务 而 设计 的 。 二 者 的 运行 原理 类 似 ， 在 搜索 树 中 向 下 深入 ( 雅 达 利 游 
戏 网 络 的 例子 中 只 有 一 个 动作 ) 并 使 用 神经 网 络 来 评估 局 面 。 虽 然 
AlphaGo 表 现 出 了 类 似 人 类 的 识别 围棋 盘面 特征 的 能 力 ， 但 它 只 能 执 
行 下 围棋 这 项 非常 单一 的 任务 。 正 如 OpenAI 亿 的 研究 员 唐 杰 (Jie 
Tang) 所 言 : “AlphaGo 不 会 决定 去 买 个 芝士 汉堡 ， 然 后 尝试 接管 世 
8v 


AlphaGo 不 打算 接管 世界 的 一 个 原因 是 ， 它 的 一 切 都 依赖 于 人 
类 ， 包 括 在 棋盘 上 落 子 的 能 力 。 为 了 让 AlphaGo 完 成 走 季 ， 人 类 操作 
员 必 须 通过 计算 机 屏幕 查看 AlphaGo 选 择 了 什么 着 法 ， 然 后 在 棋盘 上 
BEET 
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Jj 〈 毫 无 疑问 ， 这 些 能 力 令 人 印象 深刻 ) ，AlphaGo 并 没有 展现 出 通 
常 邱 人 类 智能 相关 的 大 多 数 能 力 。 它 无 法 与 瞬 姑 万 变 的 环境 互动 。 除 
了 在 搜索 树 的 上 层 汇 总 的 统计 数据 外 ， 它 没有 关于 过 去 事件 的 记忆 
除了 模拟 它 和 它 的 对 手 如何 走 棋 之 外 ， 它 没有 关于 未 来 事件 的 概念 。 
AlphaGo 的 创造 者 与 本 书 中 大 多 数目 动机 的 创造 者 一 样 ， 他 们 设计 它 
征 为 了 解决 一 个 狭 罕 领域 的 问题 。 同 样 的 道理 ， 飞 机 没有 可 以 拍打 的 
翅膀 ，AlphaGo 没 有 记忆 ， 也 没有 能 力 对 实时 环境 做 出 快速 反应 。 
AlphaGo 是 专门 为 下 围棋 而 设计 的 ， 因 此 它 只 展现 了 下 围棋 所 需要 的 
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AlphaGo 击 败 李 世 石 后 不 久 ，DeepMind 宣 布 了 一 个 新 项 目 。 下 一 
个 挑战 是 设计 一 个 能 够 玩 游戏 的 智能 体 ， 这 个 游戏 要 求 该 智能 体 具 备 


ee SAR ASR a Jk: 在 有 时 间 限 制 的 条 件 下 做 出 决策 的 
能 力 ， 寻 找 做 出 这 些 决 策 所 需要 的 信息 ， 并 且 在 高 层次 (规划 可 能 有 影 
啊 长 期 未 来 事件 的 行动 ) 和 低层 次 (做 出 内 电 般 迅速 的 反应 ， 其 影响 
会 立即 反馈 ) 上 共同 做 出 这 些 决 策 。DeepMind 希 望 构 建 一 个 可 以 玩 即 
时 战略 游戏 《星际 争霸 》 的 智能 体 。 


1. OpenAI 是 由 诸多 硅谷 大 享 联合 建立 的 人 工 智能 非 营利 组 织 。 编者 注 
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游戏 是 一 个 有 用 的 基准 ， 但 我 们 的 目标 是 人 工 智能 。 
迈克 尔 : 鲍 林 (Michael Bowling) 
阿尔 伯 塔 大 学 教授 电 


1. Cade Metz,“In OpenAl’s Universe,Computers Learn to Use Apps Like Humans 
Do,” Wired, December5,2016. 


构建 更 好 的 游戏 机 器 人 


考虑 到 人 工 智 能 界 已 经 找到 了 战胜 围棋 世界 冠军 的 方法 ， 而 围棋 
一 直 被 认为 是 人 工 智能 所 面临 的 最 困难 的 挑 成 之 一 ， 那 么 我 们 在 人 工 
智能 领域 要 迎接 的 下 一 个 重大 挑战 是 什么 ? 在 这 一 章 中 ， 我 们 将 深入 
研究 一 个 日 益 受 到 关注 的 具体 的 开放 问题 ， 即 构建 一 个 可 以 像 最 优秀 
的 人 类 玩家 一 样 玩 《星际 和 争霸》 这 类 游戏 的 计算 机 程序 的 问题 ， 用 业 
界 的 术语 来 说 就 古 构 建 一 个 机 器 人 (bot) 的 问题 。 我 们 还 将 了 解 到 目 
前 为 止 我 们 在 本 书 中 看 到 的 哪些 方法 可 用 于 构建 《星际 争 锚 》 机 器 
人 “。 在 进一步 讨论 这 个 话题 之 前 ， 我 要 提醒 一 点 ， 我 们 还 没有 完全 掌 
握 构建 这 些 机 如 人 的 技术 ， 所 以 你 不 要 期 望 在 这 一 章 结 束 的 时 候 束 知 
道 该 如 何 做 。 


《星际 争霸 》 是 计算 机 游戏 史上 最 受 欢 迎 的 游戏 之 一 。 它 发 行 于 
1998 年 ， 在 发 行 后 的 10 年 内 销量 超过 1000 万 份 。 信 其 中 它 仅 在 韩国 就 
售 出 了 450 万 份 。 在 韩国 ， 这 款 游 戏 被 认为 是 引发 该 国 游戏 热潮 的 原 
因 ， 在 职业 体育 场馆 举办 的 游戏 比赛 竞争 激烈 ， 有 大 量 观 众 到 现场 观 
看 。( 和 《星际 争霸 》 的 顶级 玩家 都 成 了 偶像 人 物 ， 他 们 会 收 到 “ 汾 
丝 * 的 礼物 ， 最 优秀 的 玩家 会 得 到 待遇 丰厚 的 合同 ， 成 为 职业 玩家 。 一 
位 28 岁 的 世界 顶级 玩家 获得 了 一 份 为 期 三 年 的 价值 69 万 美元 的 职业 合 
同 。( 周 而 其 他 玩家 就 没 那么 垃 运 了 。 另 外 一 名 28 岁 的 男子 沉迷 于 这 款 
游戏 ， 在 一 家 烟雾 练 绕 的 网 吧 里 连续 奋战 了 50 个 小 时 后 ， 因 过 度 疲劳 
WT: | 


1. Kristin Kalning,“Can Blizzard Top Itself with‘StarCraftII’?” NBC News,May31,2007. 


2. Kristin Kalning,“Can Blizzard Top Itself with'StarCraftI' "NBC 
News,May31,2007.Alex Bellos,“Rise of the E-sports Superstars,"BBC Click,June29,2007. 


3. Cory Barclay,The15Richest Online Gamers in the World,February24,2015,accessed 
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4. BBC News.*S Korean Dies after Games Session."August10,2005;John Anderson,Spot 
On:Korea Reacts to Increase in Game Addiction,September12,2005,accessed 
March17,2017,http://www.gamespot.com/articles/spoton-korea-reacts-to-increase-in-game- 
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《星际 争霸 》 与 人 工 智能 


《星际 争霸 》 是 一 款 设 定 在 26 世 纪 的 战争 游戏 。 就 像 国 际 象棋 一 
样 ， 每 个 玩家 都 指挥 着 一 文 由 不 同 单位 组 成 的 军队 ， 每 种 单位 都 有 其 
优 缺 点 。 有 些 单 位 (例如 小 兵 ) 很 弱 ， 不 能 快速 移动 。 有 些 单位 可 以 
作为 坚韧 粗糙 的 步兵 ， 而 有 些 单 位 则 可 以 射 弹 或 长 距离 飞行 〈 请 记 
住 ，《 星 际 和 争霸》 和 是 在 计算 机 上 玩 的 ， 不 是 在 实体 棋盘 上 玩 的 ) 。 与 
国际 象棋 不 同 ，《 星 际 争 霸 》 十 一 款 即 时 战略 游戏 。 玩 家 不 是 轮流 走 
子 ， 而 是 在 一 个 大 的 战斗 区 域内 实时 指挥 自己 军队 的 各 个 单位 。 军 队 
之 间 的 战斗 残酷 旦 节奏 快 ， 这 给 手 快 的 玩家 市 来 了 优势 。 事 实 上 ， 
的 顶尖 人 类 玩家 操作 键盘 和 鼠标 的 速度 通常 超过 每 秒 5 
次 。 


《星际 争霸 》 的 另 一 个 有 趣 之 处 在 于 ， 它 要 求 每 个 玩家 都 要 维持 
正常 的 经 济 运转 。 为 了 发 展 目 己 的 军队 ， 玩 家 必须 建造 和 升级 不 同类 
型 的 建筑 ， 而 且 建 造 的 顺序 很 重要 。 不 同 的 建筑 允许 玩家 在 目 己 的 军 
队 中 创建 不 同 技能 的 单位 或 创建 新 的 建筑 ， 所 以 这 有 时 被 称 为 “科技 
树 ” 玩家 创建 的 科技 树 越 复杂 ， 他 们 的 技术 惑 越 强 。 但 要 建造 和 升级 
这 些 建筑 ， 玩 家 必须 从 他 们 的 环境 中 获取 资源 (请 设想 26 世 纪 黄 金 、 
木材 和 石油 的 等 价 物 ) 。 要 获得 和 保护 建立 这 种 经 济 所 需 的 资源 ， 往 
往 需 要 武力 。 因 此 ， 强 大 的 经 济 产 生 强 大 的 军队 ， 强 大 的 军队 造 束 强 
大 的 经 济 。 
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分 游戏 空间 。 玩 家 可 以 看 到 目 己 的 单位 或 单位 附近 发 生 了 什么 ， 但 是 
在 环境 地 图 上 看 不 到 目 己 的 单位 以 外 很 远 的 地 方 。 这 意味 着 他 们 必须 
派出 侦察 兵 或 者 找到 其 他 方法 来 了 解 环境 。 因 此 玩家 总 是 在 不 确定 的 


情况 下 做 出 决定 。 玩 家 必须 在 游戏 过 程 中 积极 思考 何 时 以 及 如 何 搜集 
情报 。 


下 面 简要 回顾 一 下 我 们 如 何 设计 智能 体 来 玩 国际 象棋 和 围棋 等 策 
略 游戏 。 在 这 些 游 戏 中 ， 最 优秀 的 智能 体 搜索 数 百 万 个 游戏 状态 ， 并 
执行 评价 函数 来 查找 最 有 可 能 市 来 成 功 结果 的 状态 。 游戏 搜索 树 的 大 
小 ， 以 及 智能 体 搜 索 它 的 能 力 取决 于 两 个 因素 : 树 的 每 个 层次 的 分 文 
因子 《智能 体 在 给 定时 间 内 必须 做 出 选择 的 走 子 选项 的 个 数 ) 和 树 的 
深度 〈 智 能 体 在 一 局 游戏 中 需要 走 多 少 步 棋 ) 。 


围棋 的 分 支 因子 大 约 是 250，《 星 际 争霸 》 的 分 支 因子 远大 于 此 。 
在 任何 给 定时 间 ， 玩 家 可 以 选择 移动 一 个 或 多 个 单位 ， 可 以 升级 或 建 
造 新 的 建筑 。 保 守 估 计 ， 游 戏 的 分 支 因子 大 约 为 1 后 面 50 个 0 (这 个 数 
字 非 常 大 ， 因 为 玩家 可 以 同时 移动 他 们 单位 的 任何 子 集 ) 。( 沁 《星际 
争霸 》 的 时 长 也 比 围棋 要 长 得 多 ， 一 盘 职 业 围 棋 横 局 大 约 持续 150 步 ， 
而 《星际 争霸 》 是 一 款 即 时 战略 游戏 。 一 局 典型 的 25 分 钟 的 《星际 争 
霸 》 大 约 有 36000 个 动作 。( 归 这 意味 着 一 局 典型 的 《星际 争霸 》 游 戏 
的 搜索 空间 大 约 是 一 盘 典 型 围棋 棋局 的 101799640 倍 。 为 了 使 游戏 更 具 
挑战 性 ，《 星 际 争霸 》 玩 家 因为 战场 迷雾 而 仅 拥有 不 完整 的 信息 ， 因 
此 国际 象棋 或 围棋 中 使 用 的 传统 搜索 方法 不 适用 于 《星际 争霸 》 。 


换言之 ，《 星 际 争 霸 》 对 人 工 智能 领域 提出 了 巨大 的 挑 成 。 一 个 
可 以 得 心 应 手 地 玩 《 星 际 和 争霸》 的 机 做人 需要 具备 许多 我 们 认为 能 够 
定义 人 类 智能 的 品质 ， 包 括 用 有 限 的 信息 做 出 战略 决 生 的 能 力 ， 以 及 
实时 应 对 不 可 预见 情况 的 能 力 。 纽 芬兰 纪念 大 学 的 计算 机 科学 教授 戴 
HEPER (David Churchill) 称 这 是 游戏 人 工 智 能 研究 的 “ 英 峰 ”。 


自从 戴 维 于 2010 年 前 后 从 本 :韦伯 (Ben Weber) 手中 接手 《星际 
争霸 》 机 器 人 项 目 之 后 ， 他 束 一 直 在 组 织 《 星 际 争霸 》 机 器 人 之 间 的 
比赛 ， 因 此 我 们 对 这 些 机 器 人 的 开发 进展 有 一 些 了 解 。 从 我 们 掌握 的 


情况 来 看 ， 人 工 智 能 距离 攻克 《星际 争霸 》 还 有 很 长 的 路 要 走 。( 时 如 
果 我 们 用 字母 给 《星际 争霸 》 机 器 人 评分 的 话 ， 职 业 玩家 的 得 分 为 A_ 
到 A+， 业 余 玩 家 的 得 分 为 C+ 到 B， 而 《星际 争霸 》 机 器 人 的 得 分 处 于 
D 到 D+ 的 范围 。 全 但是， 我 们 已 经 取得 了 一 些 进展 。 
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简化 游戏 


让 《星际 争霸 》 机 器 人 会 玩 游戏 的 唯一 微乎其微 的 机 会 在 于 ， 把 
它们 需要 执行 的 任务 分 解 成 可 管理 的 组 块 。 关 于 这 些 组 块 应 该 是 什么 
的 一 些 核心 思想 来 自 对 职业 人 类 玩家 如 何 玩 游戏 的 仔细 分 析 。( 时 我 已 
经 将 一 些 成 功 的 机 器 人 中 反复 出 现 的 思想 组 织 到 图 16.1 所 示 的 架构 
中 。 你 可 能 会 立即 意识 到 ， 我 们 看 到 了 一 个 非常 类 似 于 本 书 开头 的 自 
动 驾驶 汽车 以 及 玩 雅 达 利 游戏 的 神经 网 络 的 架构 。 相 似 之 处 在 一 定 程 
度 上 是 因为 我 使 用 的 图 的 通用 性 (你 几乎 可 以 把 任意 智能 体 放 入 这 样 
的 图 中 ) ， 但 是 我 们 应 当 回 顾 一 下 某 些 《星际 争霸 》 机 器 人 是 如 何 适 
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立 状态 
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图 16.1 简化 的 《星际 争霸 》 机 器 人 架构 示例 


这 个 架构 的 最 左 侧 是 智能 体 与 环境 交互 所 经 过 的 层 。 在 目 动 萄 驶 
FEF, Beate eas Meal as; 在 雅 达 利 游 戏 智 能 体 中 ， 这 一 
层 与 “街机 学 习 环 境 ” 连 接 。 目 前 为 止 ,大 多 数 《 星 际 争霸 》 机 絮 人 都 
通过 BWAPI (BroodWar 应 用 程序 编程 接口 ) 与 它们 的 虚拟 环境 进行 交 
互 ，BWAPI 是 一 位 名 叫 亚当 . 海 纳 受 (AdamHeinermann) 的 年 轻 软 件 
开发 者 开发 的 软件 库 (BroodWar LEMFRE) WAV REE, Ei 
是 一 个 特定 版 本 ) 。 对 《星际 争霸 》 机 器 人 而 言 ， 这 个 传 感 和 驱动 层 
为 机 絮 人 提供 了 一 种 通过 编程 与 游戏 本 里 进行 交互 的 方式 。 


Al Re RAISER, HTOSVEBSEHGBERTSEBIR: 它 总 
结 智能 体 搜集 到 的 天 于 环境 的 信息 ， 包 括 对 手 的 基地 、 游 戏 中 的 单位 
和 整个 地 图 的 信息 。 不 同 的 机 器 人 对 这 一 层 的 重视 程度 不 同 。 


机 絮 人 的 “智能 ”行为 来 目 染 构 最 右边 的 部 分 ， 我 们 可 以 将 其 分 为 
三 个 层次 。 在 顶层 ， 这 些 机 器 人 推理 战略 :机 器 人 应 该 建造 哪些 建 
筑 ， 应 该 升级 哪些 建筑 ， 以 及 应 该 在 什么 时 候 做 这 些 事情 。 这 类 战略 
决策 需要 提前 几 十 分 钟 进行 规划 ， 并 会 对 游戏 产生 直接 的 长 期 影响 ， 
因为 科技 树 ( 即 建筑 及 其 升级 ) 将 直接 影响 机 器 人 的 军队 在 游戏 后 期 
的 组 成 和 优 劣 。 这 个 决策 部 分 还 需要 长 期 规划 ， 以 发 展 能 够 广 持 科技 
树 的 经 济 。 在 略 低 的 层次 上 ， 机 器 人 会 推理 战术 ， 这 涉及 提前 30 秒 到 1 
分 钟 的 计划 : 智能 体 应 该 把 它 的 建筑 建 在 哪里 ” 应 该 何 时 出 兵 到 何 处 
作战 ? 在 这 三 个 层次 中 最 低 的 是 反 应 层 ， 它 要 求 在 几 秒 钟 内 做 出 规划 
和 有 反应。 馈送 到 这 三 个 层次 的 是 来 目 军 事情 报 层 的 关于 环境 的 信息 。 


现在 ， 这 种 三 层 架 构 并 不 古 我 们 在 目 动 区 驶 汽车 上 看 到 的 可 以 用 
来 在 十 字 路 口 导航 的 正式 三 层 架构 。 例 如 ，《 星 际 争 钳 》 机 器 人 中 的 
三 层 定 义 了 军事 指挥 层级 或 一 组 建筑 的 组 织 级 别 。 正 如 我 们 刚才 看 到 
的 计算 机 科学 教授 戴 维 . 印 吉 尔 所 解释 的 那样 :“ 当 在 战略 层次 做 出 决 
定时 ， 这 个 构架 就 会 辣 战 术 单 位 下 达 命 令 ， 命 令 中 只 包括 完成 战术 目 
标 所 需要 的 信息 。” 沁 这 不 同 于 我 们 在 自动 驾驶 汽车 中 看 到 的 正式 的 
ZRH, KAEA AIETAN E SEER o 


1. McCoy and Mateas,“An Integrated Agent for Playing Real-Time Strategy Games.” 


2. See e.g.,the entry on SkyNet in Ontanón et al.,*A Survey of Real-Time Strategy Game AI 
Research and Competition in StarCraft.” 

3. David Churchill,“Heuristic Search Techniques for Real-Time Strategy Games,"PhD 
thesis, Department of Computer Science,University of Alberta.2016. 


实用 《星际 争霸 》 机 器 人 


在 设计 《星际 争 锚 》 机 器 人 方面 ， 还 有 什么 方法 章 有 成 效 呢 ? 回 
想 一 下 我 们 在 “实用 主义 理论 ” 队 (参加 网 飞 竞赛 的 那 两 个 毫 无 头绪 的 
KIK) 中 看 到 的 指导 原则 。 还 记得 吗 ,“ 实 用 主义 理论 ” 队 只 有 一 个 目 
tn: 最 得 比赛 。 因 此 ， 他 们 着 眼 于 数量 ， 结 合 数 百 种 模型 和 预测 因 
素 ， 完 全 不 理会 让 网 飞 在 之 后 的 实践 中 复制 他 们 的 方法 有 多 么 不 切实 
示 。 他 们 在 实现 目标 方面 非常 务实 。 


许多 顶级 《星际 争 锚 》 机 器 人 的 开发 者 都 革 循 类 似 的 理念 ， 用 能 
够 说 得 游戏 的 策略 来 编程 他 们 的 机 器 人 ， 有 即便 这 意味 着 他 们 并 没有 创 
造 出 我 们 认为 乔 能 的 机 器 人 。 例 如 ， 一 些 机 器 人 被 编程 为 遵循 简 单 的 
rush 策 略 (二 )， 这 意味 着 他 们 会 建立 一 支 由 弱小 的 战斗 单位 组 成 的 小 型 
军队 〈 在 没有 复杂 科技 树 的 情况 下 可 以 创建 的 唯一 单位 ) ， 在 对 手 建 
立 防御 之 前 发 动 攻击 。 这 类 rush 策 略 是 合法 的 策略 ， 职 业 人 类 玩家 会 
f FH s Fh FÉ rush RENE o (ERANA R, TRUE BEMOSRE (B E IB 
单 的 规则 ， 完 全 不 考虑 任何 长 期 策略 ， 然 而 实施 这 些 策 上 略 的 机 器 人 人 仍 
然 远 远 不 能 战胜 人 类 职业 玩家 。 


印 吉尔 利用 人 工 稼 能 领域 的 各 种 工具 ， 设 计 了 一 个 更 复杂 、 更 成 
功 的 《星际 争霸 》 机 器 人 。 但 即使 是 这 球 叫 UAlbertaBot 的 机 器 人 ， 有 
时 也 会 输 给 那些 使 用 rush 策 略 的 机 器 人 。 有 一 次 ， 他 研究 了 对 手 的 机 
如 人 策略 ， 并 调整 了 UAlbertaBot， 以 增强 对 这 类 案 上 略 的 防御 。 这 招 答 
效 了 一 段 时 间 ，UAlbertaBot 在 比赛 中 一 度 名 列 前 茅 ， 直 到 更 多 的 苋 争 
对 手 出 现 ， 他 们 有 上 自己 独特 的 rush 策 略 ， 那 时 ， 印 吉尔 正 忙 于 成 为 一 
名 教授 ， 无 上 暇 调整 他 的 机 器 人 来 对 付 这 些 新 策略 。 (他 关于 


aA 


UAlbertaBot 的 大 部 分 工作 都 是 他 在 阿尔 伯 塔 大 学 读 人 研究 生 的 时 候 完 
的 。) 


我 们 可 以 看 出 ， 即 便 最 好 的 《星际 争霸 》 机 器 人 也 很 糟糕 ， 因 为 
它们 仍然 有 “ 阿 喀 琉 斯 之 路 *”。 这 有 时 会 导致 一 些 机 器 人 之 间 出 现 奇 特 
的 剪刀 一 石头 一 布 的 循环 ， 如 图 16.2 所 示 。 几 年 前 ，SkyNet 与 其 他 机 
器 人 相 比 非常 优秀 ， 它 有 80% 的 概率 能 战胜 AIUR。AIUR 也 很 不 错 ， 
和 其 他 大 多 数 机 器 人 一 样 ， 它 通常 会 战胜 Xelnaga 。 con seh 了 我 
们 上 面 看 到 的 rush 策 略 : 它 会 攻击 对 方 的 兵 〈 可 以 建造 建筑 和 搜集 资 
源 的 单位 ) 。 这 种 策略 在 对 付 大 多 数 机 需 [RE X 
SkyNet 的 一 个 特有 的 软肋 ， 这 意味 着 Xelnaga 有 大 约 70% 的 概率 能 战胜 
优秀 的 SkyNet! ( 晤 这 样 的 循环 完全 有 可 能 发 生 在 顶级 围棋 或 国际 象棋 
棋 手 之 间 ， 但 这 种 现象 出 现在 最 优秀 的 《星际 争霸 》 吞 能 体 之 间 ， 特 
别 尖 馈 地 骏 露 出 了 它们 目前 的 弱点 。 


Xelnaga 


Q 


AIUR <> SkyNet 


图 16.2 2011 年 《星际 争霸 》 机 器 人 比赛 中 的 剪刀 一 石头 一 布 的 循环 。 在 比赛 中 ，Xelnaga 通 常 
会 战胜 SkyNet，SkyNet 通 常会 战胜 AIUR， 而 AIUR 通 常会 战胜 Xelnaga 


如 果 以 前 玩 过 这 类 游戏 ， 你 肯定 对 战 过 计算 机 ， 也 就 是 说 你 和 机 
郁 人 玩 过 。 所 以 你 可 能 会 想 : 如 有 果 创 建 玩 《星际 和 争霸》 这 类 游戏 的 机 


器 人 如 此 困难 ， 为 什么 计算 机 还 是 如 此 难以 战胜 ? EST UR PULSE ARE 
同 。 他 解释 说 : “因为 即时 战略 人 工 智能 很 难 变 得 智能 。 而 现实 游戏 中 
的 机 器 人 经 常 作 次 ， 以 显得 比 实际 更 强 。* 你 从 市 场 上 买 来 的 软件 中 的 
机 器 人 的 目标 是 为 人 类 玩家 提供 有 趣 且 有 吸引 力 的 体验 ， 这 并 不 是 客 
观 上 的 优秀 。( 电 例如 ， 在 某 些 情况 下 ， 计 算 机 可 以 看 到 整个 游戏 地 
图 ， 没 有 战场 迷雾 。 人 二 机 器 人 可 能 会 派 侦察 兵 四 处 侦察 ， 让 人 觉得 它 
并 没有 完全 看 到 战场 ， 但 这 只 是 把 戏 而 已 ， 类 似 于 下 国际 象棋 的 十 耳 
其 人 ”使 用 的 伎俩 ， 其 目的 是 让 它们 看 起 来 比 实际 更 聪明 。( 凡 它们 的 
策略 同样 简单 ， 例 如 ， 在 给 定 的 层次 上 ， 计 算 机 可 能 有 一 个 脚本 化 的 
( 即 预定 义 的 ) 构建 树 ， 其 中 包含 非常 简单 的 规则 来 处 理 异常 。 


事实 上 ， 脚 本 化 的 构建 规则 甚至 在 “优秀 ”的 机 器 人 中 也 很 常见 。 
当 苑 吉尔 和 他 的 合作 者 创建 UAlbertaBot 时 ， 他 们 首先 构建 了 框架 ， 用 
简单 的 脚本 化 规则 填充 其 不 同 的 组 件 ， 如 战略 层 、 战 术 层 和 反应 层 。 
这 种 想法 是 创建 一 个 可 以 完整 地 玩 完 一 局 《星际 争霸 》 的 机 器 人 ， 即 
便 它 玩 得 很 差 。 然 后 ， 一 旦 框架 就 位 ， 他 们 就 可 以 继续 改进 各 个 组 
件 ， 用 可 以 探索 开发 科技 树 的 最 佳 顺序 的 组 件 取代 脚本 化 的 “生产 模 
b" (在 这 方面 这 些 组 件 已 经 超过 了 人 类 ) ， 用 复杂 的 战斗 模拟 系统 取 
代 他 们 的 “战斗 指挥 官 * 等 。( 固 随 着 《星际 争霸 》 机 器 人 不 断 改 进 ， 这 
些 独 立 的 模块 很 可 能 会 得 到 改进 ， 而 整体 架构 不 变 。 或 者 ， 架 构 是 否 
会 大 不 相同 ， 我 们 也 未 可 知 。 


1. rush 策 略 是 指 在 游戏 早期 牺牲 经 济 ， 快 速 发 展 兵 力 ， 以 此 一 举 击 败 对 手 的 策略 。 
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OpenAI 与 《DOTA2》 


很 多 《星际 争霸 》 玩 家 都 很 熟悉 《远古 守卫 2》 (下 文 简称 
《DOTA2》) 这 款 游戏 ， 这 是 一 款 与 《星际 争霸 》 有 很 多 相似 之 处 的 
村 旗 游 戏 。 要 掌握 《DOTA2》， 玩 家 必须 控制 一 个 “ 瑞 雄 ”角色 ， 它 可 
以 在 地 图 上 移动 、 攻 击 对 手 、 施 展 法 术 等 ， 目 标 是 摧毁 对 手 的 “远古 遗 
迹 ”， 这 种 建筑 需要 玩家 不 惜 一 切 代 价 去 保护 。 


职业 《DOTA2》 选 手 每 年 竞争 2400 万 美元 的 比赛 奖金 。 
《DOTA2》 过 去 的 奖金 总 额 为 1.32 亿 美元 ， 远 远 超过 《星际 争霸 》“ 微 
不 足 道 " 的 700 万 美元 ， 甚 至 超过 《星际 争霸 2》 的 2500 万 美元 。 毫 无 疑 
间 ， 这 款 游 戏 很 有 挑战 性 ， 设 计 玩 《DOTA2》 的 机 器 人 就 像 设 计 玩 
《星际 争霸 》 的 机 器 人 一 样 ， 你 必须 能 够 理解 一 个 拥有 非常 大 的 搜索 
空间 的 环境 。 人 四 


我 们 在 前 几 章 中 简要 介绍 过 的 埃 隆 . 马 斯 克 ， 他 发 起 了 研究 实验 室 
OpenAI， 目 的 是 “构建 安全 的 人 工 智能 ， 并 确保 人 工 智能 带 来 的 福利 
被 尽 可 能 广泛 和 均匀 地 分 配 ”。( 因 2017 年 8 月 ，OpenAI 宣 布 他 们 已 经 创 
造 出 了 能 够 在 一 对 一 的 有 限 版 本 《DOTA2》 游 戏 中 击败 人 类 顶级 玩家 
的 机 器 人 。 他 们 究竟 如 何 创 造 出 一 个 可 以 在 如 此 大 的 空间 中 进行 搜索 
的 机 器 人 ? 


正如 OpenAI 的 一 位 研究 人 员 解 释 的 那样 ， 答 案 是 他 们 并 没有 使 用 
搜索 。OpenAI 使 用 的 方法 结合 了 我 在 本 章 和 有 关 神 经 网 络 的 章节 中 介 
绍 的 工具 ， 但 是 它们 的 架构 没有 使 用 像 MCTS 这 样 的 搜索 算法 。 估 


为 了 玩 《DOTA2》，OpenAI 的 一 个 研究 小 组 创建 了 一 个 神经 网 
络 ， 斌 像 我 们 在 这 本 书 前 面 看 到 的 两 个 网 络 一 样 。 告 一 看 ， 它 有 扩 像 


玩 雅 达 利 游戏 的 网 络 。 还 记得 吗 ， 雅 达 利 游戏 智能 体 一 遍 又 一 遍地 评 
估 它 的 网 络 ， 选 择 网 络 指示 的 会 得 到 最 高 时 间 调 整 奖励 流 ( 即 巧 克 
力 ) 的 动作 。 在 每 个 时 间 步 长 ， 雅 达 利 网 络 的 输入 都 是 一 个 向 量 ， 这 
个 向 量 总 结 了 4 个 最 新 的 屏幕 截图 中 的 屏幕 像素 ， 而 输出 表示 了 采取 每 
个 动作 的 预期 未 来 奖励 。 在 图 16.3 中 ， 你 可 以 看 到 《DOTA2》 的 架构 
与 此 类 似 ， 它 的 输出 神经 元 决定 了 智能 体 应 该 采取 哪些 操作 。 与 雅 达 
利 游戏 网 络 一 样 ，《DOTA2》 网 络 的 输入 也 是 对 游戏 当前 状态 进行 编 
码 的 特征 列表 。 与 玩 双 陆 棋 的 神经 网 络 和 AlphaGo 一 样 ， 它 们 的 神经 
网 络 通 过 自我 对 战 得 到 改进 » 9 


输出 层 ( 操作 ) 


时 间 


图 16.3 在 《DOTA2》 中 击败 了 顶级 人 类 玩家 的 机 器 人 架构 。 智 能 体 在 每 个 时 间 点 运行 一 个 神 
经 网 络 ， 这 个 网 络 的 输入 是 总 结 了 当前 环境 的 特征 向 量 ， 然 后 网 络 输出 决定 智能 体 将 会 选择 
的 操作 的 变量 。 智 能 体 还 记录 状态 ， 把 状态 从 一 个 时 间 点 传递 到 下 一 个 时 间 点 。 这 个 状态 充 
当 了 智能 体 的 一 种 “记忆 ” 


但 这 些 网 络 之 间 存 在 一 些 重要 的 区 别 。 首 先 ，《DOTA2》 网 络 的 
许多 输入 特征 都 钙 由 人 工 制作 的 ， 编 码 的 内 容 包 括 当前 控制 的 单位 在 


地 图 上 的 位 置 和 地 图 的 细节 。 其 次 ， 也 是 更 重要 的 一 点 ，《DOTA2》 
网 络 有 记忆 “。 (9) 


请 记 住 ， 雅 达 利 游戏 网 络 无 法 很 好 地 玩 某 些 游戏 ， 例 如 《 索 特 祖 
玛 的 复仇 》。《 花 特 祖玛 的 复仇 》 需 要 它 的 智能 体 做 两 件 事 : 探索 一 
个 非常 大 的 环境 ， 并 记 住 它 最 近 做 了 什么 。 但 是 雅 达 利 游戏 网 络 没有 
记忆 ， 所 以 即便 它 有 很 多 经 验 ， 也 在 游戏 中 表现 不 佳 。 那 么 ， 我 们 该 
如 何 赋予 智能 体 记 忆 ? 


在 第 11 章 中 ， 当 人 研 究 可 以 为 独 像 生 成 字幕 的 网 络 时 ， 我 们 看 到 了 
天 于 神经 网 络 的 记忆 单元 的 上 暗示。 还 记得 吗 ， 那 些 网 络 能 够 记录 实时 
说 出 口 的 话语 ， 因 为 它们 是 RNN。RNN 中 的 单元 彼此 串联 连接 : 一 个 
循环 单元 的 输出 状态 被 用 作 馈 入 下 一 个 循环 单元 的 输入 状态 。 网 络 中 
的 每 个 单元 检查 其 状态 和 任何 其 他 输入 ， 产 生 一 些 输出 值 ， 更 新 状 
态 ， 然 后 将 状态 发 送 到 序列 中 的 下 一 个 单元 。 


《DOTA2》 网 络 采 用 了 同样 的 思想 。 与 雅 达 利 游戏 网 络 一 样 ， 
《DOTA2》 网 络 也 在 不 断 地 循环 运行 ， 接 收 输入 特征 并 产生 一 些 输出 
值 。 但 它 也 是 RNN: 它 的 输出 之 一 是 状态 ， 它 把 这 个 状态 传递 给 网 络 
Lp ces ° 当 网 络 运 行 时 ， 它 使 用 这 个 状态 向 量 “ 记 忆 ” 事 
TÉ ° 


《DOTA2》 机 器 人 远 非 完美 。 首 先 ， 仅 赁 记忆 并 不 能 解决 所 有 问 
题 。 被 赋予 记忆 的 雅 达 利 游戏 智能 体 仍然 无 法 攻克 《蒙特 祖玛 的 复 
仇 》。 获 胜 后 ，OpenAI 举 办 了 一 个 会 议 ， 让 其 他 玩家 挑战 他 们 的 
《DOTA2》 机 器 人 ， 这 些 玩家 在 程序 中 发 现 了 一 些 明 显 的 致命 弱点 ， 
就 像 人 们 在 《星际 争霸 》 机 器 人 上 看 到 的 一 样 。 但 是 ， 这 个 网 络 击败 
了 世界 上 几 位 顶级 的 玩家 ， 让 我 们 距离 创造 出 能 在 标准 5 对 5 版 本 的 
《DOTA2》 中 与 人 类 竞争 的 机 器 人 又 近 了 一 步 ， 同 时 也 为 我 们 带 来 了 
一 些 对 设计 出 成 功 的 《星际 争霸 》 机 器 人 很 有 价值 的 想法 。 人 轩 
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《星际 争霸 》 机 器 人 的 未 来 


为 了 看 到 《星际 争霸 》 机 器 人 未 来 的 一 个 可 能 的 发 展 方 同 ， 让 我 
们 回 到 本 书 中 出 现 过 的 一 个 人 物 : DeepMind 的 创始 人 态 米 斯 : 哈 耳 比 
斯 。 叶 然 杰 米 斯 加 入 《星际 争霸 》 机 器 人 领域 比较 晚 ， 但 在 创立 
DeepMind 之 前 ， 他 束 对 这 款 游戏 产生 了 兴趣 。 杰 米 斯 发 现 他 的 一 位 同 
事 征 一 名 《星际 争霸 》 高 手 玩家 ， 于 是 对 这 位 同事 屡 战 慌 胜 的 能 力 非 
常 着迷 。 男 一 位 同事 回忆 说 : 


杰 米 斯 想 要 战胜 这 个 家 伙 。 他 每 晚 都 把 自己 和 那个 家 伙 锁 在 一 个 
房间 里 。 他 会 为 那个 家 伙 设 置 障碍 ， 让 他 在 没有 鼠标 或 单 手 的 情况 下 
玩 游 戏 ， 这 样 便 可 以 准确 地 分 析 他 的 哪些 操作 让 他 变 得 出 色 。 这 有 点 
像 一 个 人 走 上 拳击 台 被 接 了 一 顿 ， 然 后 他 每 晚 都 回来 挨 接 。 这 显示 了 
他 令 人 难以 置信 的 求 胜 欲 望 。 舍 ) 


最 近 ， 杰 米 斯 将 DeepMind 的 一 些 工 作 转 向 了 开发 具有 竞争 力 的 
《星际 争霸 》 机 器 人 。DeepMind 和 《星际 争霸 》 背 后 的 暴雪 公司 
(Blizzard) 宣布 了 一 项 合作 ， 两 家 公司 将 开发 并 发 布 一 个 供 机 器 人 玩 
《星际 争霸 2》 的 官方 界面 ， 以 及 一 个 让 开发 者 创建 自己 的 “课程 "的 环 
境 ， 从 而 让 机 器 人 以 更 有 条 理 的 方式 学 习 。( 针 


DeepMind 决 定 将 目标 转向 《星际 争霸 》， 其 痛 后 的 一 件 趣事 十 ， 
阿尔 伯 塔 大 学 的 研究 人 员 早 在 10 年 前 就 开始 研究 这 个 问题 。 还 记得 
吗 ， 戴 维 : 印 吉尔 在 阿尔 伯 塔 大 学 学 习 的 时 候 ， 正 在 进行 《星际 争霸 》 
机 妖 人 设计 方面 的 开创 性 人 研究。 单独 来 看 ， 这 个 事实 可 能 不 足 为 奇 ; 
有 趣 的 古 ， 阿 尔 伯 塔 大 学 对 整个 人 工 智能 领域 ,特别 是 对 DeepMind 的 
工作 产生 了 深远 的 影响 。 正 如 我 们 在 第 7 章 中 看 到 的 ， 阿 尔 伯 塔 大 学 的 
研究 人 员 开 发 了 “街机 学 习 环 境 "， 这 为 DeepMind 提 供 了 一 种 可 以 让 雅 


达 利 游戏 智能 体 与 游戏 环境 交互 的 方式 。DeepMind 开 发 AlphaGo 的 团 
队 的 几 位 关键 研究 人 员 正 是 在 阿尔 伯 塔 大 学 开始 了 计算 机 围棋 领域 的 
研究 。 阿 尔 伯 塔 大 学 拥有 数位 在 人 工 智能 的 各 个 领域 都 处 于 世界 领先 
地 位 的 专家 ， 其 中 包括 被 誉 为 “强化 学 习 之 父 ? 的 理 查 德 . 萨 顿 (Richard 
Sutton) 。 萨 顿 对 这 个 领域 的 贡献 之 一 ， 就 是 雅 达 利 游戏 智能 体 用 来 
从 动作 中 进行 学 习 的 算法 ， 即 用 于 离线 学 习 的 算法 。 


如 有 果 我 们 能 攻克 《星际 争 钳 》， 这 是 否 意 味 着 我 们 束 能 攻克 智 
能 ? 答案 很 价 单 ， 不 能 。《 星 际 和 争霸 》 并 没有 涉及 人 类 智能 的 许多 方 
面 ， 包 括 人 类 从 全 新 的 、 非 结构 化 的 环境 中 理解 并 得 出 结论 的 能 力 。 


几 位 著名 的 人 工 智 能 研究 人 员 在 最 早 的 一 篇 关于 计算 机 国际 象棋 
的 论文 中 写 道 :“ 如 末 一 个 人 能 设计 出 一 台 成 功 的 国际 象棋 机 器 ， 那 么 
他 似乎 就 潜入 了 人 类 努力 的 核心 。" 归 而 现在 距离 我 们 设计 出 成 功 的 
国际 象棋 机 器 已 经 过 去 了 20 年 ， 但 我 们 仍然 不 清楚 我 们 是 否 比 “ 深 
蓝 ” 战 胜 加 里 : 卡 斯 由 罗 夫 之 前 更 接近 “人 类 努力 的 核心 *"， 即 便 现在 我 
们 已 经 知道 如 何 设计 一 个 能 够 出 色 地 下 国际 象棋 的 系统 了 。 同 样 的 粗 
略 评估 也 适用 于 计算 机 围 横 和 《星际 争霸 》 机 希 人 。 创 造 出 能 够 高 水 
平地 玩 《 星 际 争 和 钳 》 的 机 器 人 可 能 是 一 个 同样 引 人 人 注目 却 很 狭 陈 的 结 
果 。 然 而 ， 我 们 在 这 个 过 程 中 获得 的 工具 和 染 构 一 一 新 的 搜索 滤 法 、 
新 的 感知 算法 和 新 的 强化 学 习 算 法 ， 将 是 更 重要 的 成 陨 。 
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17 50 年 后 或 更 遥远 的 未 来 


人 工 智能 起 起 伏 伏 的 发 展 过 程 


既然 我 们 已 经 创造 出 可 以 在 识别 图 像 中 的 物体 、 转 录 人 类 语言 5 
音 以 及 下 围棋 等 任务 中 表现 超过 人 类 的 数字 目 动机 ， 那 么 在 未 来 50 年 
里 ， 我 们 还 能 期 待 它们 做 什么 呢 ? 很 多 。 但 在 我 们 推测 下 一 步 的 发 展 
方 同 之 前 ， 让 我 们 先 人 简要 地 回顾 一 下 我 们 已 经 取得 了 多 大 的 进展 。 


在 过 去 的 20 年 里 ， 许 多 在 人 工 智能 领域 引起 和 轰 动 的 想法 与 半 个 世 
纪 前 的 20 世 纪 60 年 代 末 引起 友 动 的 想法 如 出 一 办 。 当 时 ， 人 工 智能 领 
域 狐 似 在 飞速 发 展 ， 神 经 网 络 得 到 了 改进 ， 国 际 象棋 和 围棋 等 游戏 的 
算法 得 到 了 开发 ， 行 业 会 议 上 的 成 果 以 及 随 着 微 处 理 器 的 出 现 而 呈 指 
数 级 增长 的 硬件 全 都 令 人 感到 兴奋 ， 人 工 智能 会 议 似乎 场 场 爆满 
所 有 这 一 切 都 发 生 在 人 工 智能 领域 进入 一 个 被 称 为 “人 工 智能 寒冬 ”的 
黑暗 时 期 之 前 。 后 来 人 工 智能 研究 的 资金 枯竭 了 几 十 年 。 人 工 智能 其 
至 成 为 一 些 研究 人 员 口 中 的 笑柄 。( 沁 在 20 世 纪 80 至 90 年 代 的 大 部 分 时 
间 里 ， 这 种 铠 慌 一 直 在 持续 ， 直 到 人 工 智能 领域 在 过 去 20 年 里 重 获 新 
HE o 


换言之 ,我们 在 世纪 之 交 前 夕 所 看 到 的 进步 值得 注意 ， 但 这 并 不 
是 一 次 孤立 的 技术 进步 ， 即 使 在 人 工 智能 领域 也 是 如 此 。 这 是 人 工 窜 
能 更 长 期 的 持续 发 展 的 一 部 分 ， 是 一 系列 起 起 伏 伏 的 发 展 过 程 。 


我 们 的 祖先 在 18 世 纪 创 造 的 目 动机 也 有 是 跨 越 数 十 年 技术 持续 发 展 
的 一 部 分 。 在 欧洲 ， 机 械 师 在 18 世 纪 和 19 世 纪 发 明了 自动 机 ， 但 这 一 


趋势 在 全 球 范围 内 持续 的 时 间 要 长 得 多 。 早 在 公元 9 世纪 ， 波 斯 三 兄弟 
下 发 明了 一 种 可 编程 的 长 第 演奏 装置 ， 公 元 1 世纪 ， 项 腊 人 整 发 明了 原 
始 的 蒸汽 机 汽 转 球 。( 轧 我们 可 以 预计 ， 现 代数 字 自动 机 也 会 遵循 同样 
漫长 的 发 展 轨迹 ， 中 间 会 出 现 技术 停 油 的 低 合 时 期 。 


1. Stephen Baker,Final Jeopardy:The Story of Watson,the Computer That Will Transform 
Our World(New York:Houghton Mifflin Harcourt,2011),35. 


2. Teun Koetsier,“On the Prehistory of Programmable ^ Machines:Musical 
Automata,Looms,Calculators,"Mechanism and Machine Theory36,no.5(2001):589—603. 


如 何 复制 这 本 书 中 的 成 功 


我 们 看 到 的 许多 机 器 表面 上 看 起 来 可 能 不 同 ， 但 它们 有 很 多 共同 
之 处 。 分 类 右 使 这 些 智能 机 器 能 够 感知 环境 。 有 限 状 态 机 和 RNN 使 它 
们 能 够 记录 周围 发 生 的 事情 (它们 做 了 什么 ， 正 在 做 什么 ， 还 需要 做 
TA) ， 并 且 只 关注 环境 中 最 显著 的 部 分 。 搜 索 算 法 使 它们 能 够 用 齐 
力 在 数 以 百 万 计 的 选项 中 找到 最 好 的 结果 。 强 化 学 习 使 它们 有 能 力 从 
经 验 中 学 习 。 然 后 ， 这 些 统计 元 素 通 过 非常 相似 的 染 构 组 合 到 我 们 看 
到 的 机 器 中 ， 这 些 机 器 可 以 目 动 区 驶 ， 预测 人 类 对 电影 的 偏好 ， 回 答 
《危险 边缘 》 的 问题 ， 并 以 惊人 的 精确 度 玩 策略 游戏 。 


但 这 些 统计 机 器 的 设计 只 是 故事 的 一 部 分 。 所 有 这 些 机 右 都 需要 
长 时 间 的 、 组 织 有 序 的 人 类 工作 。 本 书 中 最 小 的 成 功 团 队 是 创建 IBM 
的 “深蓝 ”的 团队 ， 它 只 由 几 个 人 组 成 ， 在 十 几 年 的 工作 中 ， 它 像 一 文 
摇滚 乐队 一 样 ， 成 员 进 进出 出 。 但 最 终 ,“ 深 监 ? 用 了 整整 10 年 时 间 攻 
区 了 国际 象棋 。 我 们 看 到 的 许多 其 他 团队 开发 产品 花 的 时 间 更 短 ， 但 
那些 团队 的 规模 要 大 得 多 ， 通 常 有 几 十 名 人 研究 人 员 和 工程 师 在 一 个 项 
目 上 工作 一 年 或 更 长 时 间 ， 一 般 会 达到 数 十 或 数 百 人 年 时 的 研究 和 开 
发 。 这 需要 人 类 对 团队 的 工作 进行 仔细 周密 的 管理 。 


塞 巴 斯 带 安 . 特 龙 在 目 动 营 驶 汽车 斯 坦 利 “组 织 工 作 ” 方 面 的 经 验 ， 
为 这 样 一 文 高 效 团队 树立 了 盾 越 的 标准 。 有 时 ， 他 需要 做 出 艰难 但 必 
要 的 决定 ， 告 诉 队员 他 们 在 项 目 中 埋头 兰 干 了 几 个 月 的 工作 不 会 出 现 
在 最 终 的 机 器 人 中 。 但 他 精心 挑选 的 团队 成 员 认识 到 ， 这 是 为 了 项 目 
的 利益 。 人 对 他 们 而 言 ， 胜 利 是 集体 努力 的 结果 ， 包 括 领导 者 在 内 的 
每 个 人 都 做 出 了 牺牲 。 特 龙 解释 道 : 


在 项 目的 这 个 阶段 ， 核 心 团队 中 的 每 个 人 都 完全 理解 与 团队 合作 
意味 着 什么 。 为 团队 准备 午餐 和 编写 尖端 软件 一 样 高 尚 。 直 到 今天 ， 
对 每 一 位 团队 成 员 都 愿意 做 任何 我 要 求 他 们 做 的 事情 ， 我 依然 感到 到 
服 。 我 试 着 以 身 作 则 。 我 个 人 的 亮点 是 花 了 一 天 的 时 间 用 聚 毛 乙 烯 管 
道 制作 了 一 个 坦克 陷阱 。 我 把 三 根 管道 挫 在 一 起 后 ， 我 的 团队 发 现 它 
的 表面 与 生 锈 的 金属 不 够 相似 。 于 是 我 回 到 商店 去 买 喷漆 ， 然 后 花 了 
几 个 小 时 涂 上 油污 和 泥土 ， 让 陷阱 看 起 来 酷似 “二战 " 时 的 坦克 陷阱 。 
这 并 不 是 我 来 斯 坦 福 大 学 的 工作 职责 。 神 奇 的 是 ， 这 个 弄 得 我 两 手 脏 
分 分 ， 并 让 我 在 没有 任何 科学 价值 的 世俗 事物 上 花费 了 大 把 时 间 的 工 
作 ， 却 令 我 感到 满足 。 


如 果 这 些 团 队 没 有 融入 工程 师 和 科学 家 广泛 分 享 知 识 的 更 大 的 社 
区 中 ， 它 们 也 不 可 能 成 功 。 这 些 社区 是 在 DARPA 无 人 车 挑战 赛 和 网 飞 
奖 等 比赛 中 成 立 的 ， 但 对 于 像 AlphaGo 这 样 的 项 目 也 是 如 此 。 虽 然 
AlphaGo 是 由 一 家 私营 公司 的 大 约 20 名 员工 创建 的 ， 但 AlphaGo 中 的 许 
多 思想 (例如 MCTS、 评 价 函 数 、 强 化 学 习 和 深度 神经 网 络 ) 都 是 在 
DeepMind 研 究 计 算 机 围棋 问题 之 前 的 几 十 年 被 开发 出 来 的 。 这 些 项 目 
中 的 大 多 数 之 所 以 成 功 ， 不 仅 因 为 它们 是 由 拥有 明确 目标 和 雄厚 资金 
的 大 型 工程 团队 推动 的 ， 还 因为 让 它们 得 以 产生 的 想法 是 由 公共 资助 
的 研究 社区 酝酿 出 来 的 ， 社 区 提供 了 几 十 年 来 支持 研究 和 实验 的 集体 
智慧 。 私 人 资助 的 项 目 其 实 也 是 如 此 。 例 如 ，AlphaGo 的 一 些 核心 研 
究 人 员 在 阿尔 伯 塔 大 学 细 露 头角 ， 而 IBM 的 “ 沃 和 森 ? 也 从 学 术 界 吸收 了 
大 量 人 才 和 思想 。 


TRI RF SLB SEAR (Walter Isaacson) 在 他 的 《创新 者 》 一 书 中 也 
得 出 了 类 似 的 结论 。 他 指出 ， 瓮 空 解决 一 个 雄心 亏 动 的 问题 非常 困 
难 。 在 计算 机 的 历史 上 ， 几 乎 没有 一 个 重大 的 突破 是 由 发 明 者 在 他 的 
车 库 里 独自 完 成 的 。 人 工 智能 和 机 器 学 习 的 进步 也 是 如 此 。 


这 是 否 意味 着 ， 如 果 一 个 单干 的 研究 人 员 没 有 庞大 的 预算 和 一 个 
研究 团队 ， 束 不 应 该 费心 去 开始 一 个 项 目 ? 完全 不 是 ， 但 是 研究 人 员 
中 途 加 入 或 组 织 起 一 个 更 大 的 工作 团队 仍然 是 有 用 的 。 例 如 ， 网 飞 奖 
竞赛 中 那个 名 为 "实用 主义 理论 ?的 团队 一 开始 只 有 两 个 过 无 头绪 的 家 
伙 。 但 他 们 仔细 研究 了 最 好 的 团队 所 做 的 工作 ， 这 使 他 们 在 社区 中 迅 
速 岂 起 ， 并 加 入 了 基 终 获胜 的 团队 。 创 建国 际 象 棋 程 序 “ 深 监 ? 的 团队 
最 初 规模 也 很 小 ， 但 最 终 ， 团 队 成 员 加 入 了 IBM， 在 接 下 来 的 8 年 里 ， 
他 们 继续 开发 “ 深 政 ”"， 最 终 战 胜 了 加 里 : 卡 斯 帕 罗 夫 。 归 根 结 原 ， 所 有 
这 些 项 目 都 是 从 一 个 有 想法 的 人 开始 的 。 


有 时 ， 有 想法 的 人 长 至 不 需要 解决 问题 瓯 能 产生 影响 。 正 如 我 们 
PUESIBS, Mee DAA ee, OTA A Se al AY H Po 
结 起 来 。 这 些 竞 赛 是 否 可 能 并 不 总 是 促进 进步 ， 而 只 是 让 更 多 人 了 解 
人 们 已 经 取得 的 进步 ? 这 种 情况 有 时 可 能 会 发 生 ， 但 网 飞 奖 是 一 个 太 
出 的 例子 ， 这 场 竞 赛 显 然 为 一 个 领域 增强 了 动力 。 


网 飞 在 筹划 竞赛 时 做 出 了 几 个 重要 的 决定 ， 这 可 以 作为 未 来 竞赛 
组 织 者 的 榜样 。 首 先 ， 他 们 发 布 到 社区 的 数据 集 庞大 到 足够 有 价值 ， 
它 的 规模 是 其 他 同类 公共 数据 集 的 100 倍 ; 它 也 足够 有 针对 性 ， 而 且 网 
飞 已 经 把 它 清理 得 足够 好 ， 易 于 使 用 。 其 次 ， 网 飞 向 获奖 者 提供 了 一 
大 笔 现金 奖励 。 他 们 还 为 大 奖 选 择 了 一 个 很 好 的 目标 ，10% 的 进步 对 
参赛 队伍 而 言 是 一 个 颇 有 难度 但 并 非 不 可 能 实现 的 目标 。( 电 他 们 围绕 
这 个 项 目 创建 了 一 个 活跃 的 社区 ， 提 供 了 一 个 在 线 论坛 ， 参 赛 者 可 以 
在 这 个 论坛 上 分 享 想法 ， 排 行 榜 可 以 激发 人 们 的 兴奋 情绪 。 最 后 ， 网 
飞 要 求 获 奖 者 在 获得 进步 奖 或 大 奖 之 后 撰写 报告 ， 这 些 报告 被 社区 成 
员 广泛 阅读 ， 帮 助 研究 人 员 继 续 前 进 。( 早 

竞赛 的 好 处 在 于 ， 它 可 以 改变 研究 界 投 入 时 间 的 方式 ， 其 中 一 种 
方法 是 使 研究 标准 化 。 我 们 在 金融 市 场 上 也 看 到 了 同样 的 情况 ， 公开 
交易 的 证 券 是 可 互 换 的 ， 这 也 就 是 说 ， 可 相互 交换 意味 着 它们 可 以 被 


客观 地 评估 、 定 价 ， 最 终 可 以 相互 比较 。2012 年 ImageNet 挑 战 赛 就 受 
益 于 此 ， 在 那 次 比赛 中 ， 一 个 神经 网 络 毫 无 争议 地 赢得 了 胜利 。 由 于 
参加 比赛 的 所 有 选手 都 按照 相同 的 标准 进行 评估 ， 因 此 很 明显 ， 神 经 
网 络 是 公平 的 获胜 者 。 其 他 团队 立即 加 入 了 深度 学 习 的 潮流 ， 在 随后 
的 几 年 里 ， 顶 尖 参 赛 者 提交 的 作品 中 都 使 用 了 深度 卷 积 神经 网 络 。 舍 ) 
虽然 2012 年 的 优胜 团队 以 较 大 优势 获胜 ， 但 2013 年 有 9 支 团 队 战 胜 了 前 
一 年 的 优胜 团队 ， 并 在 随后 的 几 年 里 取得 了 迅速 的 进步 。 


1 ”人 年 是 衡量 工作 量 的 单位 ，1 个 人 工作 1 年 是 1 人 年 。 译 者 注 


2. Sebastian Thrun,“A Personal Account of the Development of Stanley,the Robot That 
Won the DARPA Grand Challenge,” AI Magazine27(2006). 


3. Sebastian Thrun,“A Personal Account of the Development of Stanley,the Robot That 
Won the DARPA Grand Challenge,” AI Magazine27(2006). 


4. Yehuda Koren,“The BellKor Solution to the Netflix Grand  Prize,"Technical 
Report, Netflix,2009. 


5. Xavier Amatriain,"Netflix Recommendations:Beyond the5Stars,"The Netflix Tech 
Blog,Netflix, April6,2012,accessed | March4,2017,http://techblog.netflix.com/2012/04/netflix- 
recommendations-beyond-5-stars.html. 


6. Olga Russakovsky et  al,"Imagenet Large Scale Visual Recognition 
Challenge,” International Journal of Computer Vision115,no.3(2015):211—252. 


数据 的 普 衣 使 用 


在 我 们 所 看 到 的 统计 机 器 的 发 展 过 程 中 ， 男 一 个 反复 出 现 的 主题 

古 它 们 对 实验 和 数据 的 普 衣 使用。 在 某 些 情况 下 我 们 可 以 获得 大 量 的 

数据 ， 因 为 这 些 数据 是 由 热情 的 极 客 玩家 搜集 整理 的 。 我 们 在 围棋 

(在 线 对 局 棋谱 会 被 记录 下 来 ;和 《人 危险 边缘 》 (“粉丝 ”从 电视 节目 

中 搜集 问题 ) 这 样 的 游戏 中 看 到 了 这 一 点 。 在 男 一 些 情况 下 ， 学 术 研 
守 人 员 和 公司 会 把 广泛 的 、 标 记 民 好 的 数据 集 放 在 一 起 。 


对 于 其 他 情况 ， 人 研究 人 员 找 到 了 创建 目 己 的 数据 的 方法 。 塞 巴 斯 
送 安 ' 特 龙 和 他 的 斯 坦 福 大 学 团队 用 一 辆 装 有 传 感 锅 的 汽车 为 他 们 的 地 
形 探测 分 类 右 收 集训 练 数 据 。 雅 达 利 游戏 神经 网 络 在 “街机 学 习 环 
境 * 中 玩 了 数 百 万 局 游戏 ， 以 此 收集 提升 游戏 水 平 所 需 的 数据 。 而 
AlphaGo、《DOTA2》 机 器 人 和 双 陆 棋 程 序 背 后 的 创造 者 则 让 他 们 的 
程序 目 我 对 战 ， 这 样 他 们 就 可 以 创建 目 己 的 训练 数据 了 。 这 些 游戏 程 
序 收集 的 数据 量 所 面临 的 唯一 瓶颈 ， 束 是 计算 机 伦 在 玩 游戏 上 的 时 
间 。 


下 一 步 去 向 何方 


在 这 本 书 中 ， 我 有 意 回避 对 人 工 智能 的 未 来 进行 过 多 的 猜测 ， 因 
为 我 是 一 名 工程 师 ， 而 不 是 哲学 家 、 经 济 学 家 或 历史 学 家 。 但 我 相 
信 ， 我 们 已 经 从 这 些 智能 机 喜 的 发 展 过 程 中 看 到 了 足够 多 的 证 据 ， 我 
可 以 满怀 信心 地 谈论 未 来 的 一 些 事情 (尽管 其 中 许多 事情 可 能 需要 几 
个 世纪 ， 而 非 几 十 年 ， 才 能 实现 ) 。 


首先 ， 我 们 在 未 来 创建 的 自动 机 将 会 始终 遵循 程序 。 因 为 它们 会 
受到 我 们 用 来 构建 这 些 自动 机 的 媒介 以 及 我 们 生活 的 世界 物理 定律 的 
约束 。 这 些 机 器 将 会 遵循 越 来 越 复杂 的 程序 。 辨 别 它们 在 做 什么 事情 
也 会 变 得 越 来 越 困 难 ， 但 是 我 们 始终 有 可 能 将 它们 执行 的 每 一 个 动作 
追溯 到 一 组 确定 的 指令 。( 屿 一 些 哲 学 家 认为 ， 这 表明 机 器 永远 不 会 思 
考 。( 时 我 个 人 的 信念 是 ， 人 类 也 是 机 器 ， 我 们 是 模拟 机 器 ， 如 果 我 们 
相信 人 类 可 以 思考 ， 那 么 就 没有 什么 能 阻止 我 们 有 朝 一 日 设计 出 可 以 
思考 的 数字 计算 机 。 我 们 的 机 器 总 有 一 天 会 思考 ， 这 是 大 势 所 趋 ， 它 
们 会 产生 情感 、 观 点 和 自我 保护 的 愿望 ， 这 些 总 有 一 天 会 与 我 们 人 类 
发 生 冲 突 。 


其 次 ， 我 们 会 继续 设计 能 够 越 来 越 准 确 地 复制 人 类 智力 和 行为 的 
机 妖 ， 直 到 它们 的 感知 和 推理 能 力 与 我 们 目 己 做 这 些 事 情 的 能 力 之 间 
没有 明显 的 区 别 ， 而 且 机 器 在 很 多 方面 将 会 比 我 们 更 优秀 。 早 在 沃 康 
松 和 他 的 同时 代 人 试图 创造 出 外 形 和 行为 都 像 人 类 的 机 器 人 之 前 ， 我 
们 就 一 直 在 壬 试 这 样 做 。 


随 痢 我 们 继续 设计 更 好 的 目 动机 ， 这 些 工作 将 不 可 避免 地 助长 一 
种 观念 ， 这 些 机 器 对 人 类 是 一 种 威胁 ， 它 们 会 偷 走 我 们 的 工作 ， 破 坏 
我 们 的 生计 。 至 少 ， 这 些 机 器 会 让 我 们 感到 不 舒服 ， 因 为 它们 与 我 们 


有 着 惊人 的 相似 之 处 。 还 记得 吗 ， 沃 康 松本 人 也 被 迫 关 闭 了 他 的 一 个 
工作 室 ， 因 为 一 位 宗教 官员 认为 这 是 “ 襄 渎 神灵”。( 汪 从 某 种 程度 上 
讲 ， 这 些 机 器 确实 会 对 我 们 构成 威胁 ;机 器 抢 走 人 们 的 工作 正 是 因为 
它们 能 以 更 低 的 成 本 完成 这 些 工 作 。 机 器 人 将 成 为 未 来 政客 指责 的 “ 移 
民 ”*”， 它 们 的 创造 者 会 小 心 烟 中 地 推销 它们 ， 丈 像 BM 小 心 踢 跨 地 定 
位 “ 沃 森 ”一 样 。 这 将 要 求 我 们 的 领导 者 做 出 深思 熟 虚 的 决定 ， 以 确保 
改进 技术 所 带 来 的 利益 得 到 公平 分 配 ， 而 且 我 们 应 该 对 这 些 利 益 抱 有 
同样 的 期 望 。 


但 是 ， 无 论 我 们 的 社会 能 够 多 么 好 地 接纳 这 些 智 能 体 ， 只 要 技术 
(我 们 的 硬件 、 我 们 的 理论 和 它们 背后 的 软件 架构 ) 继续 改进 ， 我 们 
吕 会 继续 设计 它们 ， 使 它们 达到 并 超越 我 们 的 能 力 。 其 中 一 些 设计 机 
器 的 行为 将 由 经 济 和 商业 驱动 ， 但 设计 此 类 机 器 的 动力 在 经 济 动 机 消 
失 之 后 仍 会 持续 很 信 。 按 照 我 们 的 形象 制造 机 融 是 人 类 努力 的 体现 ， 
人 类 天 性 的 某 些 特质 将 会 迫使 我 们 继续 这 项 工作 ， 这 些 特质 包括 好 
"ro PSE ` PEMER, 但 主要 是 好 奇 和 审美 。 


1. 这 在 我 们 用 来 构建 这 些 自动 机 硬件 的 物理 限制 范围 内 是 正确 的 。 如 果 我 们 开发 出 可 
行 的 量子 计算 机 ， 由 于 量子 效应 ， 追 踪 行 为 可 能 会 变 得 更 加 困难 。 
2. 这 就 是 所 谓 的 “中 文 屋 论证 ” (Chinese Room Argument) ° 


3. Gaby Wood,“Living Dolls:A Magical History of the Quest for Mechanical Life by Gaby 
Wood,” The 
Guardian,February15,2002.https://www.theguardian.com/books/2002/feb/16/extract.gabywoo 
d. 


BUH 


WAR ICA BE BORGELI ERA RIK a tT ASTERA Ze 9T 
FAL ASIN, ARIE Tee BRA I , 
我 不 可 能 写 出 这 本 书 。 从 某 种 意义 上 讲 ， 这 本 书 对 我 而 言 很 容易 写 ， 
因为 这 些 研究 着 已 经 完成 了 大 部 分 的 艰 天 工作。 他们 花 了 无 数 时 间 进 
行 实验 、 研 究 ， 记 录 下 他 们 的 发 现 。 我 写 这 本 书 的 主要 任务 是 把 他 们 
的 研究 成 采 整 理 并 组 织 成 一 种 更 容易 理解 的 形式 。 


许多 人 和 组 织 都 对 这 本 书 的 写作 给 予 了 帮助 。 在 写作 过 程 中 ， 我 
的 家 人 提供 了 宝贵 的 支持 。 这 其 中 包括 我 的 妻子 萨 拉 (Sarah) ， 她 阅 
读 了 远 多 于 我 预期 的 书稿 ， 还 有 我 的 父母 和 见长， 是 他 们 最 早 让 我 接 
触 到 计算 机 。 泰 莎 科 技 (Teza Technologies) 非常 慷慨 地 找到 了 一 种 方 
式 ， 满 足 我 在 公司 工作 期 间 用 晚上 和 周末 的 时 间 写 作 这 本 书 的 愿望 。 
泰 莎 科技 的 迈克 尔 : 塔 元 (Michael Tucker) 审阅 了 全 部 书稿 ， 并 提供 
TERR ° ii x8 AAG hea A a, TLTRTOHHOM)IOCÓTESIE 
(Marie Lufkin Lee) ， 马 西 :罗斯 (Marcy Ross) Aloe, E Wy a7 gh. p22 ay 
(Christine Savage) ， 在 这 个 过 程 中 表现 出 了 极 高 的 专业 素质 ， 并 给 
了 予 了 很 大 帮助 ， 还 有 阅读 了 早期 书稿 的 匿名 评论 者 同样 提供 了 有 益 的 
反馈 。 上 此外， 玛丽: 巴 格 (Mary Bagg) 对 书稿 提出 了 许多 有 益 的 建议 
和 评论 ， 硅 谷 创业 者 社 群 南方 公 园 公 馆 ”(\South Park Commons) 在 
我 为 这 本 书 进 行 最 后 的 润色 时 ， 提 供 了 很 好 的 社区 支持 。 


许多 朋友 牺牲 了 自己 的 时 间 ， 为 这 本 书 贡献 了 自己 的 想法 ， 包 括 
埃 里 克 : 扬 科 夫 斯 基 (Eric Jankowski) ` AE PHE (Andrew 
Cowitt) 和 瑞 奇 . 黄 (Ricky Wong) ° PEER iA EIR (Daniel 
Duckworth) 提供 了 关于 《危险 边缘 》 章 节 的 特别 详尽 的 反馈 ， 我 的 父 


KIEM EIF (Gary Gerrish) 对 书稿 的 前 半 部 分 提供 了 有 益 的 反馈 。 
戴 维 : 印 吉尔 、 本 :韦伯 、 唐 杰 、 人 詹姆斯 :法 恩 和 元 里斯: 沃 林 斯 基 也 很 慷 
慨 地 抽出 时 间 回 答 我 在 本 书 中 讨论 的 有 关 他 们 工作 一 些 问 题 ， 并 提供 
了 相关 章节 书稿 的 反馈 。 感 谢 贾 森 . 约 位 斯 基 (Jason Yosinski) 和 他 的 
同事 友好 地 人 允许 我 在 第 9 章 〈 关 于 深度 学 习 的 第 一 个 完整 章节 ) 中 使 用 
他 们 的 神经 网 络 图 片 ， 感 谢 亚 历 克 斯 : 殉 里 泽 夫 斯 基 ( Alex 
Krizhevsky) 允许 我 使 用 AlexNet 的 图 片 。 


在 我 开始 写 这 本 书 之 前 ， 我 很 革 运 得 到 了 诸位 导师 正式 或 非 正 式 
的 指导 ， 他 们 辐 我 展示 了 多 年 来 的 深入 思考 。 


